Míry podobnosti Klastrová analýza Metoda TWINSPAN

Slides:



Advertisements
Podobné prezentace
Dualita úloh lineárního programování a analýza citlivosti
Advertisements

Statistické metody a hodnocení morfologických dat
Syntetické znaky fytocenóz
Jak číst ordinační diagramy
Chováme králíčky Liší se tato tři králičí plemena hmotností?
Indexy floristické podobnosti
Fenetický přístup shluková analýza ordinační metody
LOGISTICKÉ SYSTÉMY 8/14.
VÍCEKRITERIÁLNÍ ROZHODOVÁNÍ I.
Testování hypotéz (ordinální data)
Matice distancí v mnohorozměrné analýze. Distanční matice – proč se objevují? Vzdálenosti mezi objekty v terénu Vzdálenosti mezi taxony ve fylogenetickém.
Shlukovací algoritmy založené na vzorkování
Gaussova eliminační metoda
Analýza dat.
Shluková analýza.
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Matematická teorie rozhodování
Řízení a supervize v sociálních a zdravotnických organizacích
Inference jako statistický proces 1
Shluková analýza.
Složitější (mnohorozměrné) metody
Korelace a elaborace aneb úvod do vztahů proměnných
Jiří Šafr jiri.safr(zavináč)seznam.cz
Úvod do gradientové analýzy
Lineární regresní analýza
Biostatistika 6. přednáška
Metody výběru variant Používají se pro výběr v případě více variant řešení stejného problému Lze vybírat dle jednoho nebo více kritérií V případě více.
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Mnohorozměrná statistika
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
V. Analýza rozptylu ANOVA.
ISS Úlohy o podobnosti objektů, mnohorozměrné škálování Semináře ke kurzu Analytické metody výzkumu Jindřich Krejčí.
Klasifikace Míry (ne)podobnosti (Dis)similarity measures, Resemblance functions Shluková analýza - Cluster analysis TWINSPAN.
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Počítačová chemie (5. přednáška)
Vícerozměrné statistické metody
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
Korelace.
Marketingový průzkum Milan Mrázek Matematika & Business
PSY717 – statistická analýza dat
ANALÝZA A KLASIFIKACE DAT
Vyhledávání vzorů (template matching)
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Inferenční statistika - úvod
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
Měření v sociálních vědách „Měřit všechno, co je měřitelné, a snažit se učitnit měřitelným vše, co dosud měřitelné není“. (Galileo Galilei)
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
… jsou bohatší lidé šťastnější?
Ukládání dat biodiverzity a jejich vizualizace
Opakování – přehled metod
VÍCEKRITERIÁLNÍ ROZHODOVÁNÍ I.
4. cvičení
- váhy jednotlivých studií
Úlohy o podobnosti objektů, mnohorozměrné škálování
ANALÝZA A KLASIFIKACE DAT
Shluková hierarchická analýza Obrázek 1
3. cvičení
Spojitá a kategoriální data Základní popisné statistiky
Vícerozměrná analýza biodiverzity
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Typy proměnných Kvalitativní/kategorická binární - ano/ne
5. cvičení
Neparametrické testy pro porovnání polohy
Pokročilé metody analýzy dat v neurovědách
Induktivní statistika
Základy statistiky.
ANALÝZA A KLASIFIKACE DAT
Transkript prezentace:

Míry podobnosti Klastrová analýza Metoda TWINSPAN Klasifikace Míry podobnosti Klastrová analýza Metoda TWINSPAN

Míry podobnosti I. Míry podobnosti (similarity measures, též resemblance functions) komplementární k mírám nepodobnosti (dissimilarity m.), nazývaným i jako vzdálenosti (distances): D = 1 – S nebo D = √(1 – S) nebo D = √(1 – S2) Každá ordinační nebo klasifikační mnohorozměrná metoda založena na nějaké míře podobnosti (explicitně nebo je možné míru podobnosti zvolit) Dualita zadání ordinačních metod

Míry podobnosti II. V případě dat popisujících složení společenstva (řádky jsou vzorky, sloupce druhy) můžeme porovnávat vzorky (podobnost vzorků, sample similarity) nebo druhy (species similarity) Zásadní rozdíl v těchto dvou typech podobností: Podobnosti vzorků jsou založeny na kompletním výčtu druhů dané kategorie organismů (vyšší kytky, hmyz) – s výjimkou přehlédnutých Podobnosti mezi druhy jsou závislé na vzorkované škále, druhy se vyskytují v širším rozsahu podmínek a v širším geografickém rozsahu Podobnosti vzorků i druhů lze počítat z prezenčních i z kvantitativních dat, pro obojí existuje mnoho typů

Míry podobnosti III. Existují jich desítky až stovky, zde si ukážeme jen nejvýznamnější zástupce Porovnáváme: vzorky - Q druhy – R Typ dat Prezenční (0 a 1) Sørensen coefficient Jaccard coefficient Pearson f (V) coeff. Yule (Q) coefficient Kvantitativní Euclidean distance c2 distance Percentage similarity correlation coefficients

Podobnost vzorků, 0/1 data Sørensen-ův koef. S = 2a / (2a + b + c) Jaccard-ův koef. J = a / (a + b + c) d: počet druhů chybících v obou srovnávaných vzorcích (většinou se nepoužije)

Podobnost druhů, 0/1 data Pearson’s f (= V) Yule koeficient Q d: počet vzorků, ve kterých chybí oba druhy – většinou je třeba vzít v úvahu!

Míry podobnosti pro kvantitativní data Kvantitativní data obsahují více informací než 0-1 data V zaznamenaných hodnotách se odráží přítomnost, relativní zastoupení, celková abundance (celková biomasa) Tyto tři aspekty můžeme v různé míře zdůraznit či potlačit nejen volbou míry podobnosti ale i změnou dat před výpočtem

Úprava kvantitativních dat Transformace: změna hodnot pomocí zvolené funkce Xij’ = f(Xij) pro každou hodnotu nezávisle na ostatních, např. log Standardizace: úprava rozsahu hodnot uvažovaného buď přes hodnoty všech proměnných (druhů) v rámci vzorku nebo přes všechny hodnoty proměnné: standardize by sample X by species Centrování: odečtení průměru proměnné (častěji) nebo vzorku od jednotlivých hodnot

Transformace odhadové stupnice Braun-Blanquet-ova odhadová stupnice (r, +, 1, 2, 3, 4, 5), případně různá zjemnění Transformace buď ordinální nebo logaritmus střední pokryvnosti Mezi oběma způsoby není podstatný rozdíl ...

Podobnost vzorků: kvantitativní data 1: Eukleidovská distance Chceme-li standardizovat, pak normou (√ΣXj2): ED12=14.14 ED34=12.25 ED12=1.41 ED34=0.82 ED12=1.41 ED34=1.41

Podobnost vzorků: kvantitativní data 2: Percentage similarity Obdoba Sørensenova koeficientu pro kvantitativní data Doplněk do jedné se nazývá Bray-Curtis distance a bývá často doporučována pro metodu nemetrického mnohorozměrného škálování (NMDS)

Podobnost druhů: kvantitativní data Korelační koeficienty (Pearsonův lineární, neparametrické: Spearmanův, Kendallův) c2 distance (i pro vzorky!) Si+ je součet hodnot všech druhů ve vzorku i S+j je součet hodnot druhu j přes všechny vzorky

Míry podobnosti: telegraficky 1 Porovnávání podobnosti vzorků vs. podobnosti společenstev: NESS index (normalized expected species shared), jednodušší forma: Morisita index Používáme tam, kdy je společenstvo jen částečně reprezentováno vzorky, a to s proměnlivou reprezentativností podle velikosti vzorku (počty jedinců)

Míry podobnosti: telegraficky 2 Matice podobností (či nepodobností = vzdáleností) musíme zadat jako vstup nejen pro klastrovou analýzu, ale také pro mnohorozměrné škálování a Mantelův test Multidimensional scaling: Metric – principal coordinates analysis (PCO, PCoA) Nonmetric – NMDS (kritérium stress) Mantelův test – porovnání dvou (či více) matic vzdálenosti – test vztahu

Klasifikace Je-li výsledkem skupina rovnocenných tříd, jde o nehierarchickou (nonhierarchical) klasifikaci, např. K-means clustering Opakem zařazení klasifikovaných objektů do hierarchie tříd znázorňované dendrogramem Způsobem vzniku této klasifikace se odlišují divisivní (rozdělující) metody – např. metoda TWINSPAN, a aglomerativní (spojující) metody – tj. klastrová analýza v užším významu

Rozhodnutí v klastrové analýze Jak zaznamenám zastoupení druhů? (2) Jak vyjádřím podobnost jednotlivých vzorků? (3) Jak vyjádřím podobnost skupin (klastrů)? Klastrová analýza nemůže být „objektivní“ metoda – každé z uvedených rozhodnutí odráží specifika kladené otázky a/nebo subjektivní pohled badatele Je ale „opakovatelná“ (reproducible)

Klastrová analýza - spojování Vzdálenosti mezi objekty máme v zadané matici (ne)podobností. V hierarchické klasifikaci ale potřebujeme i vzdálenosti mezi shluky (klastry) nižšího řádu...

Klastrová analýza - metody Single linkage (nejkratší cesta) vs. complete linkage (nejdelší cesta) Další možné: average linkage (UPGMA), Wardova metoda, ... Řetězení (chaining)

Klastrová analýza – pořadí objektů Pořadí objektů je do značné míry libovolné

TWINSPAN 1 Two Way INdicator SPecies ANalysis, hierarchická divisivní metoda, vznikla pro hledání struktury ve vegetačních tabulkách Při každém rozdělení (pod)souboru snímků vychází z první osy korespondenční analýzy (CA), pozice snímků ale dále upravuje Pracuje s 0/1 hodnotami (přítomnosti druhů), pro kvantitativní data používá koncept tzv. pseudospecies (definovány podle cut levels) Současná klasifikace snímků i druhů

TWINSPAN 2 - pseudospecies Vhodnou volbou hranic (cut levels) můžeme zdůraznit či potlačit vliv dominant

TWINSPAN 3 – uspořádání skupin Podobnost skupiny 01 se skupinou 1 je větší, než mezi skupinami 00 a 1. Vytváří se tak plynulá bloková struktura tabulky

TWINSPAN 4 - rozdělení Indikátory dělení, preferenční druhy

TWINSPAN 5 – další dělení