Složitější (mnohorozměrné) metody

Slides:



Advertisements
Podobné prezentace
Analýza experimentu pro robustní návrh
Advertisements

Ideový závěr Co si mám z přednášky odnést (+ komentáře k užití statistiky v biologii)
Monte Carlo permutační testy & Postupný výběr
Lekce 1 Modelování a simulace
Lineární regresní analýza Úvod od problému
Statistika schématicky Tomáš Mrkvička. Základy znáte Konfidenční intervaly Porovnání 2 či více výběrů Regresní modely Základy časových řad.
Automated data mining Ing. Jan Černý Czech Technical University in Prague Faculty of Information Technology.
DOK „Umělá inteligence“ v DOK (i jinde). NEURONOVÉ SÍTĚ.
Návrh modelů Jan Brůha IREAS. Návrh otázek a modelů Jaký vliv měla podpora z ESF v OP LZZ 1.1 na obrat / zisk a zaměstnanost firem? – Jde o srovnání mezi.
FORMALIZACE PROJEKTU DO SÍŤOVÉHO GRAFU
1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec.
Matice distancí v mnohorozměrné analýze. Distanční matice – proč se objevují? Vzdálenosti mezi objekty v terénu Vzdálenosti mezi taxony ve fylogenetickém.
Varianty výzkumu Kroky výzkumu Výběrový soubor
SPC v případě autokorelovaných dat
Obecný lineární model Analýza kovariance Nelineární modely
Shluková analýza.
Biostatistika 9. přednáška Aneta Hybšová
Řízení a supervize v sociálních a zdravotnických organizacích
Objektové programování
Úvod do gradientové analýzy
Kontingenční tabulky Závislost dvou kvalitativních proměnných.
Podnikové informační systémy C7 – Data Mining a získávání znalostí České vysoké učení technické v Praze Fakulta strojní ústav Řízení a ekonomiky podniku.
Míry podobnosti Klastrová analýza Metoda TWINSPAN
Úvod do studia- 3. seminář Definice tématu Robert Zbíral.
Obecný lineární model Fitované hodnoty and regresní residuály
Shluková analýza.
ZÁKLADNÍ SOUBOR Základní soubor (populace) je většinou myšlenková konstrukce, která obsahuje veškerá data, se kterými pracujeme a není vždy snadné jej.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Korelace a elaborace aneb úvod do vztahů proměnných
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Účel procedury: První a závazný krok jakékoli seriozní komparativní studie. Umožňuje vyloučit možnost, že distribuce studovaného znaku (vlastnosti, vzorce.
Úvod do gradientové analýzy
Lineární regrese.
Lineární regresní analýza
Biostatistika 6. přednáška
Makrozoobentos a klasifikace toků Jarkovský J. 2,3, Kubošová K. 2,3, Zahrádková S. 1, Brabec K. 1, Kokeš J. 4, Klapka R. 2,3 1) Ústav botaniky a zoologie,
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Tvorba simulačních modelů. Než vznikne model 1.Existence problému 2.Podrobnosti o problému a o systému 3.Jiné možnosti řešení ? 4.Existence podobného.
Modely uživatelských preferencí. Obsah Jak se vyjadřují preference Modely preferencí a jejich učení Model založený na atributech Kolaborativní filtrování.
Úvod do ekologie.
Mnohorozměrná statistika
Pohled z ptačí perspektivy
AKD VII.
Základní principy geografického výzkumu
Vícerozměrné statistické metody
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
Praktikum 4c: Tabulky, baterie otázek 16/5/08. Tabulky - metoda popisu dat.
Biostatistika 8. přednáška
Marketingový průzkum Milan Mrázek Matematika & Business
Základy pedagogické metodologie
Motivační příklad – 1a Vliv rodičů a prostředí na vývoj mláďat Nejstarší mládě v každém hnízdě měřeno ve věku X dní Vysvětlující údaje: počet mláďat, stáří.
ZÁSADY KONCIPOVÁNÍ LOGISTICKÝCH SYSTÉMŮ KAPITOLA 5: VZTAH STRATEGIE PODNIKU A LOGISTICKÉHO PLÁNOVÁNÍ, CÍLE, METODY A NÁSTROJE PLÁNOVÁNÍ, POSTUPOVÉ KROKY.
1. cvičení
Pojetí sociálněvědního výzkumu
STATISTICKÝ ROZCESTNÍK aneb CO S DATY Martin Sebera.
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
Dolování znalostí z vícejazyčných textových dat Luděk Svozil , Brno Vedoucí práce: doc. Ing. František Dařena, Ph.D.
Možnosti biostatistiky RNDr. Karel Hrach, Ph.D. Ústav zdravotnických studií UJEP Biomedicínský výzkum s podporou evropských zdrojů v nemocnicích ( )
Ověření modelů a modelování Kateřina Růžičková. Posouzení kvality modelu Ověření (verifikace) ● kvalitativní hodnocení správnosti modelu ● zda model přijatelně.
… jsou bohatší lidé šťastnější?
Opakování – přehled metod
Varianty výzkumu Kroky výzkumu Výběrový soubor
4. cvičení
Vlastnosti trojúhelníku
Úlohy o podobnosti objektů, mnohorozměrné škálování
Proč statistika ? Dva důvody Popis Inference
Fylogenetická evoluční analýza
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
PSY252 Statistická analýza dat v psychologii II Seminář 9
Transkript prezentace:

Složitější (mnohorozměrné) metody stručný nástin možností vybraných metod

Path analysis přesný český překlad by byl něco jako analýza cestiček Viz též SEM (Structural Equation Modelling [třeba ve programu Statistica; je to o něco širší pojem]), případně causal modelling

Klasická (mnohonásobná) regrese Mnoho prediktorů, jedna odpověď Ve skutečnosti - dlouhé kauzální řetězce - v přírodě: mnohá proměnná je ovlivňovaná, a zároveň ovlivňuje - vede ke kauzálním sítím

Například typický hydrobiologický model Dravé ryby Ostatní náhodné vlivy (případně tady může být teplota, chemie vody etc. Planktonožravé ryby Zooplankton Fytoplankton

Příklad ze skript

Mluvíme sice o kauzálním modelování Ale kauzalita je “vnesena” našimi představami o systému, nikoliv experimentální manipulací Přístupy použití se liší, podle toho jak moc dovolíme, aby náš iniciální model o kauzálních závislstech byl korigován na základě dat

Metoda je užitečná především tam, kde nemůžeme (alespoň některé) proměnné měnit experimentálně Oblíbená v evoluční biologii Ale i v ekologii (zvlášt na úrovni ekosystémů a společenstev ve větších prostorových škálách) Pozor při interpretaci kauzality

Popsáno + srozumitelně pro biology Bill Shipley 2004 Cause and Correlation in Biology: A User's Guide to Path Analysis, Structural Equations and Causal Inference. Cambridge University Press. James B. Grace 2006 Structural Equation Modeling and Natural Systems. Cambridge University Press.

(Hierarchické) klasifikace Děláme stromečky (ale nejen je)

Cíl klasifikace Vytvořit skupiny objektů, které jsou vnitřně homogenní, ale odlišné od ostatních

Typická data (matice) Snímek číslo

Mohu klasifikovat snímky, podle podobnosti druhového složení (dostanu skupiny podobných snímků - pak jim třeba můžu nějak říkat [Seslerietum]) druhy, podle vzájemné podobnosti (korelace) rozšíření (dostanu skupiny druhů s podobnými ekologickými nároky)

Typická data Chci získat skupiny podobných individuí - pozor, data jsou na různých stupnicích

Klasifikace Numerická taxonomie, numerická fenetika, kladistické metody Numerické taxonomie (dříve především fenetika), dnes podstatně širší pojetí Kladistika - fylogenetika - konstrukce fylogenetických stromů - dnes prakticky samostatné odvětví

Klasifikace S učením vs. bez učení Hierarchické vs. nehierarchické Hierarchické - divisivní vs. algomerativní

Shluková analýza = Hierarchická, aglomerativní metoda, výsledkem strom: Princip - nejprve spočtu matici podobností mezi všemi páry, pak konstruuju strom

Přži shlukové analýze pamatuj: Je zásadním způsobem ovlivněna tím, jakou mám míru podobnosti mezi objekty (tzv. (dis)similarity measure, příp. resemblance function). Pokud mám data měřená na různých škálách, musím standardizovat. Míry bývají často specifické pro různá odvětví

Při shlukové analýze pamatuj: Velmi důležitý je i shlukovací algoritmus Předvolby (default) v programu Statistica jsou v drtivé většině nevhodné pro biologické účely - je třeba je příslušně změnit

Shluková analýza mi udělá skupiny vždy ale já je nechci, chci vizualizovat podobnostní strukturu ve složení společenstev

Ordinace: chci dostat (pro složení společenstev) odrinační diagram, kde podobné snímky budou blízko sebe, podobné druhy budou blízko sebe, a druhy budou mít optima v blízkosti snímků, kde se vyskytují

Blízkost značí podobnost Ordinační diagram Urtica Chenopodium Cactus Nymphea Menyanthes Comarum Aira Drosera Blízkost značí podobnost

Ordinační diagram Nutrients Urtica Chenopodium Cactus Nymphea Menyanthes Water Comarum Aira Drosera Můžu mít i vysvětlující proměnné - buď je promítám ex post, nebo tzv. constrained ordinations.

Různé metody Correspondence analysis, Principal component analysis, factor analysis Oblíbené v ekologii, ale i v taxonomii (ukáže, zda jsou mezi druhy přechody), a také v psychologii

Constrained ordinations i pro hodnocení pokusů

Diskriminační analýza Příklad: Mám diploida a tetraploida - ale nemůžu pokaždé počítat chromozomy - ptám se - jsem schopen najít pravidlo na základě měřených morfologických znaků (jako jejich lineární kombinaci), které mi dvě ploidie od sebe odliší?

Při aplikaci pozor na důkaz kruhem (expert mi určil dva druhy [hlavně na základě délky prašníků, ale to já nevím] a já pak dokážu, že dva dané druhy existují, a perfektně se odlišují délkou prašníku).

Jiná úspěšná aplikace ve Škodovce (MB, už dávno) V rámci povinných prohlídek sledovali zaměstnance, a měli data o tlaku, cholesterolu, zda kouří, váhu, výšku etc. a zda do 10-ti let od prohlídky dostal či nedostal infarkt. Získali kombinaci znaků, která predikuje - chlapče, dej si pozor, spěješ k infarktu.

Podobnou věc udělají i klasifikační stromy Založeny na jiném principu (není zde aditivita efektů)

Co užitečného jsme neprobrali v celé Biostatistice (neúplný výběr) Power analysis (jakou mám šanci zamítnout H0) Složitější modely ANOVA (a obecně GLM) Zobecněné lineární modely Prakticky nic z metod mnohorozměrných Bayesovskou statistiku

Kde se můžu o statistických metodách dozvědět více Moderní regresní metody (Šmilauer) Vizualizace dat (Šmilauer) Plánování a hodnocení ekologických experimentů (Lepš & Šmilauer) Praktikum mnohorozměrných metod (Lepš & Šmilauer)