Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Klasifikace Míry (ne)podobnosti (Dis)similarity measures, Resemblance functions Shluková analýza - Cluster analysis TWINSPAN.

Podobné prezentace


Prezentace na téma: "Klasifikace Míry (ne)podobnosti (Dis)similarity measures, Resemblance functions Shluková analýza - Cluster analysis TWINSPAN."— Transkript prezentace:

1 Klasifikace Míry (ne)podobnosti (Dis)similarity measures, Resemblance functions Shluková analýza - Cluster analysis TWINSPAN

2 Míry podobnosti Similarity measures Každá ordinační nebo klasifikační metoda je (explicitně nebo implicitně) založena na nějakých míře (ne)podobnosti. (Vzpomeň na dvě možné formulace ordinace)

3 Similarity (dissimilarity, vzdálenosti) Resemblance functions (aby tam byly jak similarity – S, tak dissimilarity - D) Pokud je similarita škálována tak, že 0 ≤ S ≤1, pak obvykle disimilaritu máme jako doplněk do jedné, příp. S transformací D = 1 – S nebo D = √(1 – S) nebo D = √(1 – S 2 ) Obvykle jsou jiné míry vhodné pro (ne)podobnost vzorků, a jiné pro (ne)podobnost druhů Dva snímky můžu porovnat, aniž k tomu potřebuju kontext celé studie, pro porovnání dvou druhů musím říct, v rámci jakého souboru snímků Soubor uvažovaných druhů je „pevný“ (e.g. Všechny cévnaté rostliny), vzorky jsou nějakým výběrem z “potenciálního souboru snímků”

4 Míry podobnosti Stovky navrženy, desítky se užívají (často jeden pod různými jmény v různých oborech) Porovnáváme: vzorky - Qdruhy – R Typ dat Presence/absence (0 / 1) S ø rensen coefficient Jaccard coefficient Pearson  V) coeff. Yule (Q) coefficient KvantitativníEuclidean distance    distance Percentage similarity correlation coefficients    distance

5 Podobnost vzorků (snímků) založená na presenci/absenci SörensenJacquard d – počet druhů, které nejsou v žádném z porovnávaných vzorků (většinou se neužívá)

6 Podobnost druhů (rozumněj podobnost ekologického chování) za základě prezence/absence d – počet vzorků, které neobsahují žádný druh – jeho užití je absolutně nutné

7 Podobnost druhů vs. vzorků Podobnost druhů (i.e. Podobnost ekol. chování, e.g. V, Q) – často je od -1 do 1. “Nulový model” znamená nezávislost druhů, a v tom případě V=Q=0. Podobnost vzorků (S, J), obvykle jde od 0 (žádné společné druhy) do 1 (identická druhová kombinace). Obvykle neuvažujeme žádný “nulový model”. (Teoreticky by snad šlo – oba snímky jsou náhodnými výběry z téhož souboru – za soubor bychom museli užít všechny druhy v dané tabulce. Podobnost snímků pak je „context dependent“.

8 Transformace je algebraická funkce X ij ’=f(X ij ),kterou aplikujeme nezávisle na jakýchkoliv jiných hodnotách (třeba log, nebo odmocnina). Standardizaci provádíme s ohledem na hodnoty ostatních druhů ve vzorku (standardization by samples) nebo s ohledem na hodnoty druhu v ostatních vzorcích (standardization by species). Kvantitativní data Centering je odečtení průměru druhu (nebo vzácněji vzorku) – výsledkem je, že daný druh (vzorek) má prměr rovný nule. Standardizace obvykle znamená přepočtení na procenta, nebo dělení „normou“.

9 „Ordinal transformation „Br.-Bl. Stupnice zhruba odpovídá log-transformaci hodnot pokryvnosti.

10 Euclidean distance – užívá se v lineárních metodách For ED, standardizuj by sample norm, ne by total t značí vzorky standardizované by total, n vzorky standardizované by sample norm. ED1t2t = 1.41 (√2), zatímco ED3t4t=0.82. Pro vzorky standardizované by sample norm, ED1n2n=ED3n4n=1.41

11 Percentual similarity (quantitative Sörensen)

12 Similarita druhů na základě kvantitativních dat Korelační koeficienty (ordinary, rank) Všimněte si implicitní dvojité transformace - z toho taky vyplývá, že chi-squared distance je „context dependent“, tj. její hodnota se mění se složením ostatních snímků v tabulce.

13 Podobnost vzorků vs. Podobnost společenstev Počáteční impuls – zdálo se, že v tropickém lese je obrovská beta-diverzita hmyzích společenstev

14 Očekávaný počet společných druhů, pokud výtáhnu n individuí z prvního kýble, a n individuí z druhého kýble 22 Normalized expected shared species (NESS) = Očekávaný počet společných druhů, pokud výtáhnu dvakrát n individuí z prvního kýble Očekávaný počet společných druhů, pokud výtáhnu dvakrát n individuí z druhého kýble Každý vzorek z lapače hodím do jednoho kýble

15 Similarity matrices – přímo je užíváme v Multidimensional scaling (both metric and non-metric) Mantel test

16 Mantel Test Otázka – je nějaká závislost mezi dvěma maticemi (ne)podobnosti/ vzdálenosti? např. – je nějaká závislost mezi vzdáleností individuí v reálném prostoru a genetickou podobností?

17 Individua v ploše Indiv. No. 5 A tohle individuum je nějaký divný (jedno z pěti, čistě náhodou)

18 Two dissimilarity matrices plant12345 1 21.41 31.002.24 41.00 1.41 512.0410.6312.7311.31 plant12345 1 20.1 30.2 40.10.30.2 50.90.60.70.8 Vzdálenost v plošeGenetická distance

19 Regrese je vysoce significantní (ale máme 10 “nezávislých” pozorování, založených na pěti rostlinách!) A ty čtyři distance – všechny k té jedné divné rostlině, jsou největší

20 Řešení Permutační test Nepermutujeme jednotlivé vzdálenosti, ale jednotlivá individua

21 Klasifikace V podstatě jen historická vzpomínka

22 Hierarchická aglomerativní (cluster analysis)

23 Subjectivní volby v objektivní proceduře Nicméně, procedura je reproducible

24 Cluster analysis - spojování Vzdálenosti mezi objekty jsou v matici. Ale abychom vytvořili stromeček, potřebujeme i vzdálemosti mezi skupinami....

25 Single linkage (nearest neighbour, representant tzv. metod krátké ruky - short hand) and complete linkage (furthest neighbour, representant metod dlouhé ruky) Několik dalších metod, např. Wardova (minimum dispersion), “average linkage” – nejpopulárnjší, ale jméno užito pro několik různých metod – dnes užívané jméno UPGMA - Unweighted Pair Group Method with Arithmetic mean

26 Single linkage - > chaining

27 V klasické cluster analysis nehraje pořadí roli – tyto dva dendrogramy znázorňují tentýž výsledek

28 TWINSPAN – Two Way INdicator SPecies ANalysis Vymyslel Mark Hill – v podstatě pro velké „fytocenologické“ tabulky Inspirován klasickou fytocenologickou metodikou Algoritus založen na presence/absence data Kvantitativní data – lze užít úpro definici „pseudospecies”

29 TWINSPAN 2 - pseudospecies Definice cut levels má podobný efekt jako transformace (vážení dominance vs. presence/absence) Compare 0, 1, 10, 100 vs. 0, 10, 20, 30, 40

30 Divisivní metoda – každá skupina je dělena na základě první CA osy Ale, většina vzorků je někde uprostřed – to bychom to sekli někde uprostře shluku -> potřebujeme nějakou polarizaci

31 Polarized ordination (based on “indicator species”)

32 01 is more similar to 1 than 00 The order of groups reflects possible gradient in the table

33

34

35

36


Stáhnout ppt "Klasifikace Míry (ne)podobnosti (Dis)similarity measures, Resemblance functions Shluková analýza - Cluster analysis TWINSPAN."

Podobné prezentace


Reklamy Google