Klasifikace Míry (ne)podobnosti (Dis)similarity measures, Resemblance functions Shluková analýza - Cluster analysis TWINSPAN
Míry podobnosti Similarity measures Každá ordinační nebo klasifikační metoda je (explicitně nebo implicitně) založena na nějakých míře (ne)podobnosti. (Vzpomeň na dvě možné formulace ordinace)
Similarity (dissimilarity, vzdálenosti) Resemblance functions (aby tam byly jak similarity – S, tak dissimilarity - D) Pokud je similarita škálována tak, že 0 ≤ S ≤1, pak obvykle disimilaritu máme jako doplněk do jedné, příp. S transformací D = 1 – S nebo D = √(1 – S) nebo D = √(1 – S 2 ) Obvykle jsou jiné míry vhodné pro (ne)podobnost vzorků, a jiné pro (ne)podobnost druhů Dva snímky můžu porovnat, aniž k tomu potřebuju kontext celé studie, pro porovnání dvou druhů musím říct, v rámci jakého souboru snímků Soubor uvažovaných druhů je „pevný“ (e.g. Všechny cévnaté rostliny), vzorky jsou nějakým výběrem z “potenciálního souboru snímků”
Míry podobnosti Stovky navrženy, desítky se užívají (často jeden pod různými jmény v různých oborech) Porovnáváme: vzorky - Qdruhy – R Typ dat Presence/absence (0 / 1) S ø rensen coefficient Jaccard coefficient Pearson V) coeff. Yule (Q) coefficient KvantitativníEuclidean distance distance Percentage similarity correlation coefficients distance
Podobnost vzorků (snímků) založená na presenci/absenci SörensenJacquard d – počet druhů, které nejsou v žádném z porovnávaných vzorků (většinou se neužívá)
Podobnost druhů (rozumněj podobnost ekologického chování) za základě prezence/absence d – počet vzorků, které neobsahují žádný druh – jeho užití je absolutně nutné
Podobnost druhů vs. vzorků Podobnost druhů (i.e. Podobnost ekol. chování, e.g. V, Q) – často je od -1 do 1. “Nulový model” znamená nezávislost druhů, a v tom případě V=Q=0. Podobnost vzorků (S, J), obvykle jde od 0 (žádné společné druhy) do 1 (identická druhová kombinace). Obvykle neuvažujeme žádný “nulový model”. (Teoreticky by snad šlo – oba snímky jsou náhodnými výběry z téhož souboru – za soubor bychom museli užít všechny druhy v dané tabulce. Podobnost snímků pak je „context dependent“.
Transformace je algebraická funkce X ij ’=f(X ij ),kterou aplikujeme nezávisle na jakýchkoliv jiných hodnotách (třeba log, nebo odmocnina). Standardizaci provádíme s ohledem na hodnoty ostatních druhů ve vzorku (standardization by samples) nebo s ohledem na hodnoty druhu v ostatních vzorcích (standardization by species). Kvantitativní data Centering je odečtení průměru druhu (nebo vzácněji vzorku) – výsledkem je, že daný druh (vzorek) má prměr rovný nule. Standardizace obvykle znamená přepočtení na procenta, nebo dělení „normou“.
„Ordinal transformation „Br.-Bl. Stupnice zhruba odpovídá log-transformaci hodnot pokryvnosti.
Euclidean distance – užívá se v lineárních metodách For ED, standardizuj by sample norm, ne by total t značí vzorky standardizované by total, n vzorky standardizované by sample norm. ED1t2t = 1.41 (√2), zatímco ED3t4t=0.82. Pro vzorky standardizované by sample norm, ED1n2n=ED3n4n=1.41
Percentual similarity (quantitative Sörensen)
Similarita druhů na základě kvantitativních dat Korelační koeficienty (ordinary, rank) Všimněte si implicitní dvojité transformace - z toho taky vyplývá, že chi-squared distance je „context dependent“, tj. její hodnota se mění se složením ostatních snímků v tabulce.
Podobnost vzorků vs. Podobnost společenstev Počáteční impuls – zdálo se, že v tropickém lese je obrovská beta-diverzita hmyzích společenstev
Očekávaný počet společných druhů, pokud výtáhnu n individuí z prvního kýble, a n individuí z druhého kýble 22 Normalized expected shared species (NESS) = Očekávaný počet společných druhů, pokud výtáhnu dvakrát n individuí z prvního kýble Očekávaný počet společných druhů, pokud výtáhnu dvakrát n individuí z druhého kýble Každý vzorek z lapače hodím do jednoho kýble
Similarity matrices – přímo je užíváme v Multidimensional scaling (both metric and non-metric) Mantel test
Mantel Test Otázka – je nějaká závislost mezi dvěma maticemi (ne)podobnosti/ vzdálenosti? např. – je nějaká závislost mezi vzdáleností individuí v reálném prostoru a genetickou podobností?
Individua v ploše Indiv. No. 5 A tohle individuum je nějaký divný (jedno z pěti, čistě náhodou)
Two dissimilarity matrices plant plant Vzdálenost v plošeGenetická distance
Regrese je vysoce significantní (ale máme 10 “nezávislých” pozorování, založených na pěti rostlinách!) A ty čtyři distance – všechny k té jedné divné rostlině, jsou největší
Řešení Permutační test Nepermutujeme jednotlivé vzdálenosti, ale jednotlivá individua
Klasifikace V podstatě jen historická vzpomínka
Hierarchická aglomerativní (cluster analysis)
Subjectivní volby v objektivní proceduře Nicméně, procedura je reproducible
Cluster analysis - spojování Vzdálenosti mezi objekty jsou v matici. Ale abychom vytvořili stromeček, potřebujeme i vzdálemosti mezi skupinami....
Single linkage (nearest neighbour, representant tzv. metod krátké ruky - short hand) and complete linkage (furthest neighbour, representant metod dlouhé ruky) Několik dalších metod, např. Wardova (minimum dispersion), “average linkage” – nejpopulárnjší, ale jméno užito pro několik různých metod – dnes užívané jméno UPGMA - Unweighted Pair Group Method with Arithmetic mean
Single linkage - > chaining
V klasické cluster analysis nehraje pořadí roli – tyto dva dendrogramy znázorňují tentýž výsledek
TWINSPAN – Two Way INdicator SPecies ANalysis Vymyslel Mark Hill – v podstatě pro velké „fytocenologické“ tabulky Inspirován klasickou fytocenologickou metodikou Algoritus založen na presence/absence data Kvantitativní data – lze užít úpro definici „pseudospecies”
TWINSPAN 2 - pseudospecies Definice cut levels má podobný efekt jako transformace (vážení dominance vs. presence/absence) Compare 0, 1, 10, 100 vs. 0, 10, 20, 30, 40
Divisivní metoda – každá skupina je dělena na základě první CA osy Ale, většina vzorků je někde uprostřed – to bychom to sekli někde uprostře shluku -> potřebujeme nějakou polarizaci
Polarized ordination (based on “indicator species”)
01 is more similar to 1 than 00 The order of groups reflects possible gradient in the table