Klasifikace Míry (ne)podobnosti (Dis)similarity measures, Resemblance functions Shluková analýza - Cluster analysis TWINSPAN.

Slides:



Advertisements
Podobné prezentace
Mnohorozměrná statistická analýza dat
Advertisements

Testování neparametrických hypotéz
Ideový závěr Co si mám z přednášky odnést (+ komentáře k užití statistiky v biologii)
Statistické metody a hodnocení morfologických dat
Monte Carlo permutační testy & Postupný výběr
Jak číst ordinační diagramy
Chováme králíčky Liší se tato tři králičí plemena hmotností?
Statistika schématicky Tomáš Mrkvička. Základy znáte Konfidenční intervaly Porovnání 2 či více výběrů Regresní modely Základy časových řad.
Statistika II Michal Jurajda.
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
Diskrétní rozdělení a jejich použití
Fenetický přístup shluková analýza ordinační metody
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Matice distancí v mnohorozměrné analýze. Distanční matice – proč se objevují? Vzdálenosti mezi objekty v terénu Vzdálenosti mezi taxony ve fylogenetickém.
kvantitativních znaků
Obecný lineární model Analýza kovariance Nelineární modely
Shluková analýza.
Biostatistika 9. přednáška Aneta Hybšová
Inference jako statistický proces 1
Úvod do gradientové analýzy
Kontingenční tabulky Závislost dvou kvalitativních proměnných.
IGrid index Roman Krejčík. Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání.
Míry podobnosti Klastrová analýza Metoda TWINSPAN
Obecný lineární model Fitované hodnoty and regresní residuály
Shluková analýza.
Složitější (mnohorozměrné) metody
Korelace a elaborace aneb úvod do vztahů proměnných
Účel procedury: První a závazný krok jakékoli seriozní komparativní studie. Umožňuje vyloučit možnost, že distribuce studovaného znaku (vlastnosti, vzorce.
Úvod do gradientové analýzy
ISS Chybějící hodnoty, standardizace Semináře ke kurzu Analytické metody výzkumu Jindřich Krejčí.
Lineární regrese.
Závislost dvou kvantitativních proměnných
Biostatistika 6. přednáška
DKV část 31 Design kvantitativního výzkumu 4. část ( ) Jiří Šafr UK FHS Historická sociologie (LS 2010)
Mnohorozměrná statistika
Pohled z ptačí perspektivy
V. Analýza rozptylu ANOVA.
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
8. Kontingenční tabulky a χ2 test
Vícerozměrné statistické metody
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
Korelace.
Gradientová analýza II
ADDS cviceni Pavlina Kuranova. Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých.
Aplikovaná statistika 2. Veronika Svobodová
1. cvičení
Inferenční statistika - úvod
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
… jsou bohatší lidé šťastnější?
Opakování – přehled metod
Statistické testování – základní pojmy
VÍCEKRITERIÁLNÍ ROZHODOVÁNÍ I.
4. cvičení
- váhy jednotlivých studií
Homogenita meteorologických pozorování
Popisná analýza v programu Statistica
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
3. cvičení
Vícerozměrná analýza biodiverzity
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Homogenita meteorologických pozorování
Typy proměnných Kvalitativní/kategorická binární - ano/ne
5. cvičení
Neparametrické testy pro porovnání polohy
Pokročilé metody analýzy dat v neurovědách
Lineární regrese.
7. Kontingenční tabulky a χ2 test
Základy statistiky.
Transkript prezentace:

Klasifikace Míry (ne)podobnosti (Dis)similarity measures, Resemblance functions Shluková analýza - Cluster analysis TWINSPAN

Míry podobnosti Similarity measures Každá ordinační nebo klasifikační metoda je (explicitně nebo implicitně) založena na nějakých míře (ne)podobnosti. (Vzpomeň na dvě možné formulace ordinace)

Similarity (dissimilarity, vzdálenosti) Resemblance functions (aby tam byly jak similarity – S, tak dissimilarity - D) Pokud je similarita škálována tak, že 0 ≤ S ≤1, pak obvykle disimilaritu máme jako doplněk do jedné, příp. S transformací D = 1 – S nebo D = √(1 – S) nebo D = √(1 – S 2 ) Obvykle jsou jiné míry vhodné pro (ne)podobnost vzorků, a jiné pro (ne)podobnost druhů Dva snímky můžu porovnat, aniž k tomu potřebuju kontext celé studie, pro porovnání dvou druhů musím říct, v rámci jakého souboru snímků Soubor uvažovaných druhů je „pevný“ (e.g. Všechny cévnaté rostliny), vzorky jsou nějakým výběrem z “potenciálního souboru snímků”

Míry podobnosti Stovky navrženy, desítky se užívají (často jeden pod různými jmény v různých oborech) Porovnáváme: vzorky - Qdruhy – R Typ dat Presence/absence (0 / 1) S ø rensen coefficient Jaccard coefficient Pearson  V) coeff. Yule (Q) coefficient KvantitativníEuclidean distance    distance Percentage similarity correlation coefficients    distance

Podobnost vzorků (snímků) založená na presenci/absenci SörensenJacquard d – počet druhů, které nejsou v žádném z porovnávaných vzorků (většinou se neužívá)

Podobnost druhů (rozumněj podobnost ekologického chování) za základě prezence/absence d – počet vzorků, které neobsahují žádný druh – jeho užití je absolutně nutné

Podobnost druhů vs. vzorků Podobnost druhů (i.e. Podobnost ekol. chování, e.g. V, Q) – často je od -1 do 1. “Nulový model” znamená nezávislost druhů, a v tom případě V=Q=0. Podobnost vzorků (S, J), obvykle jde od 0 (žádné společné druhy) do 1 (identická druhová kombinace). Obvykle neuvažujeme žádný “nulový model”. (Teoreticky by snad šlo – oba snímky jsou náhodnými výběry z téhož souboru – za soubor bychom museli užít všechny druhy v dané tabulce. Podobnost snímků pak je „context dependent“.

Transformace je algebraická funkce X ij ’=f(X ij ),kterou aplikujeme nezávisle na jakýchkoliv jiných hodnotách (třeba log, nebo odmocnina). Standardizaci provádíme s ohledem na hodnoty ostatních druhů ve vzorku (standardization by samples) nebo s ohledem na hodnoty druhu v ostatních vzorcích (standardization by species). Kvantitativní data Centering je odečtení průměru druhu (nebo vzácněji vzorku) – výsledkem je, že daný druh (vzorek) má prměr rovný nule. Standardizace obvykle znamená přepočtení na procenta, nebo dělení „normou“.

„Ordinal transformation „Br.-Bl. Stupnice zhruba odpovídá log-transformaci hodnot pokryvnosti.

Euclidean distance – užívá se v lineárních metodách For ED, standardizuj by sample norm, ne by total t značí vzorky standardizované by total, n vzorky standardizované by sample norm. ED1t2t = 1.41 (√2), zatímco ED3t4t=0.82. Pro vzorky standardizované by sample norm, ED1n2n=ED3n4n=1.41

Percentual similarity (quantitative Sörensen)

Similarita druhů na základě kvantitativních dat Korelační koeficienty (ordinary, rank) Všimněte si implicitní dvojité transformace - z toho taky vyplývá, že chi-squared distance je „context dependent“, tj. její hodnota se mění se složením ostatních snímků v tabulce.

Podobnost vzorků vs. Podobnost společenstev Počáteční impuls – zdálo se, že v tropickém lese je obrovská beta-diverzita hmyzích společenstev

Očekávaný počet společných druhů, pokud výtáhnu n individuí z prvního kýble, a n individuí z druhého kýble 22 Normalized expected shared species (NESS) = Očekávaný počet společných druhů, pokud výtáhnu dvakrát n individuí z prvního kýble Očekávaný počet společných druhů, pokud výtáhnu dvakrát n individuí z druhého kýble Každý vzorek z lapače hodím do jednoho kýble

Similarity matrices – přímo je užíváme v Multidimensional scaling (both metric and non-metric) Mantel test

Mantel Test Otázka – je nějaká závislost mezi dvěma maticemi (ne)podobnosti/ vzdálenosti? např. – je nějaká závislost mezi vzdáleností individuí v reálném prostoru a genetickou podobností?

Individua v ploše Indiv. No. 5 A tohle individuum je nějaký divný (jedno z pěti, čistě náhodou)

Two dissimilarity matrices plant plant Vzdálenost v plošeGenetická distance

Regrese je vysoce significantní (ale máme 10 “nezávislých” pozorování, založených na pěti rostlinách!) A ty čtyři distance – všechny k té jedné divné rostlině, jsou největší

Řešení Permutační test Nepermutujeme jednotlivé vzdálenosti, ale jednotlivá individua

Klasifikace V podstatě jen historická vzpomínka

Hierarchická aglomerativní (cluster analysis)

Subjectivní volby v objektivní proceduře Nicméně, procedura je reproducible

Cluster analysis - spojování Vzdálenosti mezi objekty jsou v matici. Ale abychom vytvořili stromeček, potřebujeme i vzdálemosti mezi skupinami....

Single linkage (nearest neighbour, representant tzv. metod krátké ruky - short hand) and complete linkage (furthest neighbour, representant metod dlouhé ruky) Několik dalších metod, např. Wardova (minimum dispersion), “average linkage” – nejpopulárnjší, ale jméno užito pro několik různých metod – dnes užívané jméno UPGMA - Unweighted Pair Group Method with Arithmetic mean

Single linkage - > chaining

V klasické cluster analysis nehraje pořadí roli – tyto dva dendrogramy znázorňují tentýž výsledek

TWINSPAN – Two Way INdicator SPecies ANalysis Vymyslel Mark Hill – v podstatě pro velké „fytocenologické“ tabulky Inspirován klasickou fytocenologickou metodikou Algoritus založen na presence/absence data Kvantitativní data – lze užít úpro definici „pseudospecies”

TWINSPAN 2 - pseudospecies Definice cut levels má podobný efekt jako transformace (vážení dominance vs. presence/absence) Compare 0, 1, 10, 100 vs. 0, 10, 20, 30, 40

Divisivní metoda – každá skupina je dělena na základě první CA osy Ale, většina vzorků je někde uprostřed – to bychom to sekli někde uprostře shluku -> potřebujeme nějakou polarizaci

Polarized ordination (based on “indicator species”)

01 is more similar to 1 than 00 The order of groups reflects possible gradient in the table