Statistické metody a hodnocení morfologických dat

Slides:



Advertisements
Podobné prezentace
Testování parametrických hypotéz
Advertisements

Testování neparametrických hypotéz
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
Jak číst ordinační diagramy
Hodnocení způsobilosti měřících systémů
Cvičení 6 – 25. října 2010 Heteroskedasticita
Lineární regresní analýza Úvod od problému
Lineární algebra.
Shluková analýza Shluk (klastr, cluster) je skupina objektů, které uvnitř nějaké větší skupiny nemají ani nahodilý ani rovnoměrný výskyt a jejich vzájemná.
Fenetický přístup shluková analýza ordinační metody
Robustní vyrovnání Věra Pavlíčková, únor 2014.
Analytické metody výzkumu
Matice distancí v mnohorozměrné analýze. Distanční matice – proč se objevují? Vzdálenosti mezi objekty v terénu Vzdálenosti mezi taxony ve fylogenetickém.
Diskriminační analýza (DA)
Statistika Vypracoval: Mgr. Lukáš Bičík
Tloušťková struktura porostu
Shluková analýza.
Matematická teorie rozhodování
Řízení a supervize v sociálních a zdravotnických organizacích
Lineární regrese.
Míry podobnosti Klastrová analýza Metoda TWINSPAN
Shluková analýza.
Úvod do gradientové analýzy
Lineární regresní analýza
Biostatistika 6. přednáška
Biostatistika 7. přednáška
Charakteristiky variability
Teorie psychodiagnostiky a psychometrie
Odhad metodou maximální věrohodnost
Experimentální fyzika I. 2
Mnohorozměrná statistika
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Pohled z ptačí perspektivy
V. Analýza rozptylu ANOVA.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie psychodiagnostiky a psychometrie
Klasifikace Míry (ne)podobnosti (Dis)similarity measures, Resemblance functions Shluková analýza - Cluster analysis TWINSPAN.
Normální rozdělení a ověření normality dat
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
ANALÝZA A KLASIFIKACE DAT
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
1. cvičení
3. Fenetika numerická taxonomie
3. Fenetika numerická taxonomie
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Inferenční statistika - úvod
IV..
STATISTIKA 1. MOMENTY Vztah mezi momenty v rámci skupin a celku Data rozdělena do několika skupin S 1, …, S k Počty objektů v jednotlivých skupinách n.
Základy zpracování geologických dat R. Čopjaková.
Ověření modelů a modelování Kateřina Růžičková. Posouzení kvality modelu Ověření (verifikace) ● kvalitativní hodnocení správnosti modelu ● zda model přijatelně.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
4. cvičení
ANALÝZA A KLASIFIKACE DAT
METODOLOGIE MAGISTERSKÉ PRÁCE
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
3. cvičení
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Parciální korelace Regresní analýza
Typy proměnných Kvalitativní/kategorická binární - ano/ne
5. cvičení
Neparametrické testy pro porovnání polohy
ANALÝZA A KLASIFIKACE DAT
Pokročilé neparametrické metody Validační techniky
Plánování přesnosti měření v IG Úvod – základní nástroje TCHAVP
Autor: Honnerová Helena
Induktivní statistika
Základy statistiky.
ANALÝZA A KLASIFIKACE DAT
Transkript prezentace:

Statistické metody a hodnocení morfologických dat Pavel Trávníček BÚ AV ČR, PřF UK pavel.travnicek@ibot.cas.cz

Fenetické metody Zpravidla mnohorozměrná data sestávající z předem definovaných znaků Studované objekty jsou posuzovány na základě podobnosti (resp. vzdálenosti) těchto znaků Všechny znaky mají stejnou váhu a nejsou rozlišovány homologické a nehomologické znaky

Zpracování mnohorozměrných dat Shlukové analýzy (UPGMA, SL, WARD) Ordinační metody (PCA, PCoA) Diskriminační analýzy (CDA, Klasifikační DA)

Znaky Kvalitativní Semikvantitativní (odhadové stupnice) Kvantitativní binární vícestavové Semikvantitativní (odhadové stupnice) Kvantitativní nespojité (počty) spojité (metriky)

Znaky – jaké zahrnout? Čím více tím lépe Všechny diagnostické Pokud možno kvantitativní či binární Nezávislé na prostředí Znaky s normálním rozdělením

Transformace dat Logaritmická transformace (logarithmic transformation): Naměřené hodnoty se nahrazují jejich logaritmem x’ij = logc xij nebo x’ij = logc (xij + konst.)

Standardizace dat Centrování (centring, standardizace na průměr rovný nule) x’ij = xij – xi Centrování nemění jednotky, ve kterých jsou znaky měřené, mění se jen poloha nulového bodu v soustavě souřadnic. Standardizace směrodatnou odchylkou (standardization by standard deviation) kde si je směrodatná odchylka znaku i doporučuje se použít v případech, kdy jsou znaky měřené v odlišných škálách a jednotkách Standardizace rozpětím (standardization by range, ranging) pro měření ve stejném měřítku, ale s velkými rozdíly hodnot (převod do intervalu [0,1])

Koeficienty vyjadřující vztahy mezi objekty nebo znaky (resemblance coefficients) koeficienty vzdálenosti pro kvantitativní a binární znaky (metric distances) koeficienty podobnosti pro binární znaky (binary similarity coefficients) koeficienty pro smíšená data (coefficients for mixed data) korelační koeficienty (correlation coefficients)

Metriky (vzdálenosti) Euklidovská vzdálenost (Euclidean distance): EU=c kde xij je hodnota znaku i pro objekt j, xik je hodnota znaku i pro objekt k, n je celkový počet znaků Manhattanská metrika (City block) CB=a+b

Koeficienty podobnosti pro binární data Koeficient jednoduché shody (simple matching): Jaccardův koeficient: Nei & Li (1979): Link et al. (1995): genetické vzdálenosti podle Nei & Li (1979), Link et al. (1995) využívané při NJ, PCoA odpovídají také tomuto typu koeficientů object 2 object 1 1 a b c d

Koeficienty pro smíšená data i,j – objekty charakterizované znakem k, n – celkový počet znaků, wijk – váha – (1,0) je-li možné srovnat hodnoty znaku k u objektů i,j sijk – skóre pro znak k Gowerův koeficient: pro binární znaky: wijk = 1 a sijk = 0 pokud xik  xjk (hodnoty znaku k pro objekty i a j) wijk = sijk = 1 pokud xik = xjk = 1 nebo pokud xik = xjk = 0 a negativní shoda se bere do úvahy (odpovídá koeficientu jednoduché shody) wijk = sijk = 0 pokud xik = xjk = 0 a negativní shoda se nebere do úvahy (odpovídá Jaccardovu koeficientu) pro nominální znaky: wijk = 1 pokud xik a xjk jsou známé; pak sijk = 0 pokud xik  xjk; sijk = 1 pokud xik = xjk (počet stavů se nebere do úvahy) pro kvantitativní znaky: wijk = 1 pokud xik a xjk jsou oba známé, a sijk = 1 – {|xik - xjk| / (rozpětí znaku k)} (odpovídá Manhattanské metrice s daty stadardizovanými na rozpětí)

Korelační koeficienty Pearsonův korelační koeficient n počet objektů, xi1 hodnota znaku 1 pro objekt i lineární korelace, předpokládá normální rozdělení dat Spearmanův korelační koeficient (rank koeficient, koeficient pořadí): do úvahy se neberou konkrétní hodnoty znaků ale pořadí objektů, kde di je rozdíl v pořadí mezi objekty Kovariance kovariance je podobná korelačnímu koeficientu, ale není standardizovaná vzhledem k rozdílným měřítkům znaků

Shluková analýza Shluk (klastr, cluster) je skupina objektů, které uvnitř nějaké větší skupiny nemají ani nahodilý ani rovnoměrný výskyt a jejich vzájemná vzdálenost resp. nepodobnost je menší než vzdálenost resp. nepodobnost s objekty, které patří do jiných shluků. Těžiště (centroid) shluku je hypotetický (nikoliv nutně existující) prvek, jehož souřadnice ve znakovém prostoru jsou dány průměrnými hodnotami souřadnic jednotlivých objektů. Metody (SAHN – sekvenční/simultánní, aglomerativní/divizivní, hierarchické/nehierarchické, nepřekrývající/překrývající se) Minimalizace vzdáleností mezi shluky (SL, UPGMA) Optimalizace homogenity shluků (Ward)

SL (single linkage), metoda nejbližšího souseda Vzdálenost skupin (na počátku objektů) je definována jako vzdálenost mezi jejich nejbližšími objekty

UPGMA (unweighted pair-group method using arithmetic averages), metoda průměrné vzdálenosti Vzdálenost skupin (na počátku objektů) je definována jako průměr vzdáleností mezi všemi páry OTU ve skupinách

Wardova metoda (Ward’s method) Metoda založená na optimalizaci homogenity shluků – minimalizace přírůstku celkového vnitroskupinového součtu čtverců odchylek od shlukového průměru (centroidu)

SL – m. nejbližšího souseda UPGMA – m. průměrné vzdálenosti A B Wardova metoda B A

Ordinační metody Objekty (OTU) jsou charakterizované p znaky a jejich vzájemnou polohu (blízkost / podobnost) lze odvodit z jejich vzájemné polohy v p rozměrném prostoru (každý rozměr prostoru je dán jedním znakem) Je-li znaků p > 3, pak je pro vizualizaci a interpretaci dat nutné snížit počet rozměrů p s co nejnižší ztrátou informace Ordinace v novém, redukovaném prostoru

PCA – Principal Component(s) Analysis, Analýza hlavních komponent Původní soubor pozorovaných znaků je nahrazen souborem nových, vzájemně nekorelovaných znaků První hlavní komponenta (PC1) je vedena ve směru největší variability mezi OTU, druhá (PC2) pak ve směru největší variability ve směru kolmém k PC1, třetí … Vzájemná pozice objektů (OTU) je v původním i novém prostoru stejná – jsou zachovány Euklidovské distance

PCA – požadavky a typy Lze použít kvantitativní, semikvantitativní i binární data Jakkoli je lepší zajistit mnohorozměrné normální rozdělení, metoda je natolik robustní, že není striktně vyžadováno Počet objektů (OTU) vždy alespoň o 1 větší než je počet znaků, obvykle se doporučuje aby počet OTU byl větší než druhá mocnina počtu znaků není-li splněno je lépe použít PCoA Centrovaná PCA – vychází z kovarianční matice znaků (vyžaduje měření ve stejných jednotkách) Standardizovaná PCA – vychází z korelační matice znaků (přeškálování původních znaků na jednotkový rozptyl = standardizace) Necentrovaná PCA – vychází ze skalárních součinů – používá se v některých ekologických aplikacích nikoli v taxonomii

PCA – výstupy Komponentní skóre – souřadnice objektů v novém prostoru – lze je interpretovat z ordinačního diagramu, nebo použít pro další analýzy (např. shlukové) Vlastní vektory – směr vektorů vyjadřující vliv původních znaků na hlavní komponenty (viz Biploty) Vlastní čísla (eigenvalues) – míra variability původního souboru vyjádřená danou hlavní komponentou. Důležitější je procentní vyjádření – ukazuje na procento vyjádřené variability původního souboru danou komponentní osou (též kumulativní % pro více hlavních komponent) Ordinace objektů – grafický výstup znázorňující OTU v novém prostoru z hlavních komponent Biploty – společné znázornění objektů i vektorů původních znaků – čím ostřejší úhel a větší délka vektoru k hlavní komponentě, tím větší vliv daného znaku na variabilitu vysvětlenou touto komponentou Odlehlé objekty (outliers) - PCA je dobré v prvním sledu využít k odhalení odlehlých, v souboru atypických objektů a zvážit jejich vyloučení (určit příčinu jejich odlehlosti)

PCoA – Principal Coordinate(s) Analysis, Analýza hlavních koordinát Rozmístění objektů v novém prostoru je definováno hlavními koordinátami a jejich souřadnice v tomto prostoru nejsou lineárně závislé na původních znacích (na rozdíl od PCA) Vzájemné (eulidovské) vzdálenosti objektů odrážejí vztahy mezi původními objekty, které jsou měřené libovolným koeficinetem podobnosti nebo vzdálenosti Metodu je možné použít pro binární znaky, vícestavové kvalitativní znaky a smíšená data (nejčastější případ v taxonomii) Lze použít i tehdy, převyšuje-li počet znaků počet objektů Postup: primární matice dat sekundární matice vzdáleností symetrická matice (podobná kovarianční či korelační z PCA) výpočet vlastních čísel, vektorů a komponentních skóre

Diskriminační analýza (DA) Zatímco ordinační a shlukovací metody jsou vhodné k vytváření hypotéz, diskriminační analýza umožňuje jejich testování Interpretace rozdílů – kanonická DA (CDA) Zda a jak dobře je možné předem stanovené skupiny odlišit na základě znaků, které máme k dispozici Které znaky přispívají k tomuto odlišení největší mírou Identifikace objektů – klasifikační DA Odvození jedné či více rovnic za účelem identifikace objektů Zjištění znaků odlišujících skupiny, a nebo zařazení OTU do skupin

DA - požadavky Kvantitativní nebo binární znaky (vícestavové nutné převést na binární) Žádný ze znaků nesmí být lineární kombinací jiného či jiných znaků Nelze současně použít 2 nebo více silně korelovaných znaků Kovarianční matice pro jednotlivé skupiny musí být přibližně shodné Znaky charakterizující každou skupinu by měly splňovat kritérium mnohorozměrného normálního rozdělení (nicméně lze použít i data kvalitativní, tj. binární či kvantitativní, které tento požadavek nesplňují – jen výsledky statistických testů je nutné brát s rezervou) Počet dat: minimálně 2 skupiny, v každé skupině minimálně 2 objekty, počet znaků menší než počet objektů (nejlépe v každé skupině) Žádný znak by neměl být v některé skupině konstantní

CDA – Canonical Discriminant Analysis, Kanonická diskriminační analýza Umožňuje sledovat vztahy mezi objekty v prostoru definovaném kanonickými osami Ordinační metoda, která maximalizuje rozdíly mezi skupinami PCA, PCoA DA Předem stanovené skupiny ne ano Vysvětlení maximální variability celkové meziskupinové Vážení znaků ne ano

CDA – Interpretace výstupů Relativní pozice objektů

CDA – Interpretace výstupů Celkové strukturní koeficienty (Total canonical structure) The CANDISC Procedure   Total Canonical Structure Variable Can1 v4 0.117885 v5 0.346662 v6 -0.287614 v8 0.052686 v9 0.050521 v10 0.112037 v11 0.283950 v12 0.091190 v13 0.155711 v14 0.557724 v15 0.204874 v16 0.653946 v17 0.610899 v18 0.446755 v23 0.569472 v24 0.771032 v25 -0.340242 v26 -0.686944 v27 -0.746051 v28 -0.280575 v31 0.492997 v32 0.354392 v33 0.475133 v34 0.255562 v35 0.454197 v36 0.232812 v38 0.497403 v40 0.113318 v41 0.545646

CDA – Úskalí Pozor na nejednoznačně zařaditelné objekty A C A B C B A

Klasifikační DA Hledání identifikačního (klasifikačního) kritéria Skupina objektů známého zařazení (training set) odvození klasifikačního kritéria (klas. funkce) zařazení objektů neznámého postavení Zjištění účinnosti klasifikačního kritéria Testuje se na stejném souboru dat jaký sloužil k odvození klasifikační funkce = resubstituce (resubstitution) Máme-li menší počet objektů je vhodnější použití křížového ověření (cross-validation) – ze souboru o n objektech se vybere n-1 objektů, které použijeme jako tréninkový soubor klasifikační funkce se použije na zařazení vypuštěného případu. Celé se opakuje n-krát

Klasifikační DA – odvození klasifikačního pravidla Kanonická diskriminační funkce Objekty se klasifikují na základě jejich skóre na kanonické diskriminační funkci, nebo na základě jejich projekce do kanonického prostoru Klasifikační funkce: 12LFT + 2DFT-2LTW-23 kladné hodnoty = B. pendula záporné hodnoty = B. pubescens Klasifikovaný objekt se zobrazí do kanonického prostoru, který je vymezen na základě DA objektů o známé příslušnosti

Klasifikační DA – odvození klasifikačního pravidla Výpočet lineární klasifikační funkce pro každou skupinu Pro každou skupinu objektů se vypočítá samostatná lineární klasifikační funkce. Dále se vypočítá klasifikační skóre neznámého (klasifikovaného) objektu pro každou z těchto funkcí. Objekt bude zařazen do skupiny, pro kterou klasifikační skóre dosáhne nejvyšší hodnoty. Klasifikační pravidla založená na pravděpodobnostních modelech Lineární diskriminační funkce Kvadratické diskriminační funkce Neparametrické metody – např. k-nejbližších sousedů (k-nearest neighbors)