Úvod do gradientové analýzy

Slides:



Advertisements
Podobné prezentace
Mnohorozměrná statistická analýza dat
Advertisements

Cvičení 9 – Ekonomická funkce nelineární v parametrech :
kvantitativních znaků
Ideový závěr Co si mám z přednášky odnést (+ komentáře k užití statistiky v biologii)
Úvod Klasifikace disciplín operačního výzkumu
Monte Carlo permutační testy & Postupný výběr
Jak číst ordinační diagramy
Cvičení 6 – 25. října 2010 Heteroskedasticita
Lineární regresní analýza Úvod od problému
Statistika schématicky Tomáš Mrkvička. Základy znáte Konfidenční intervaly Porovnání 2 či více výběrů Regresní modely Základy časových řad.
Statistika II Michal Jurajda.
Diskrétní rozdělení a jejich použití
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec.
Matice distancí v mnohorozměrné analýze. Distanční matice – proč se objevují? Vzdálenosti mezi objekty v terénu Vzdálenosti mezi taxony ve fylogenetickém.
Hypotézy ve výzkumu.
kvantitativních znaků
Obecný lineární model Analýza kovariance Nelineární modely
Základy ekonometrie Cvičení září 2010.
Řízení a supervize v sociálních a zdravotnických organizacích
Úvod do gradientové analýzy
Data s diskrétním rozdělením
Míry podobnosti Klastrová analýza Metoda TWINSPAN
Obecný lineární model Fitované hodnoty and regresní residuály
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
ISS Chybějící hodnoty, standardizace Semináře ke kurzu Analytické metody výzkumu Jindřich Krejčí.
Lineární regrese.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Závislost dvou kvantitativních proměnných
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Experimentální fyzika I. 2
Mnohorozměrná statistika
RYCHLOST PROUDU A LARVY PAKOMÁRŮ: DVĚ ŘEKY A DVA EFEKTY Vít Syrovátka & Karel Brabec Ústav botaniky a zoologie Masarykova Univerzita GOCE-CT
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Klasifikace Míry (ne)podobnosti (Dis)similarity measures, Resemblance functions Shluková analýza - Cluster analysis TWINSPAN.
Korelace.
Gradientová analýza II
V experimentu měníme hodnotu jedné nebo několika veličin x i a studujeme závislost veličiny y. - např. měníme, ostatní x i bereme jako parametry ( , ,
Motivační příklad – 1a Vliv rodičů a prostředí na vývoj mláďat Nejstarší mládě v každém hnízdě měřeno ve věku X dní Vysvětlující údaje: počet mláďat, stáří.
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
Inferenční statistika - úvod
Aplikovaná statistika 2.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Ukládání dat biodiverzity a jejich vizualizace
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.
Opakování – přehled metod
Interpolace funkčních závislostí
Induktivní statistika - úvod
4. cvičení
Normální rozložení Intervalová/poměrová proměnná
Úlohy o podobnosti objektů, mnohorozměrné škálování
Induktivní statistika
ANALÝZA A KLASIFIKACE DAT
Proč statistika ? Dva důvody Popis Inference
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Parciální korelace Regresní analýza
Typy proměnných Kvalitativní/kategorická binární - ano/ne
5. cvičení
jednoduchá regrese kvadratický Y=b0+b1X+b2X 2
Pokročilé neparametrické metody Validační techniky
Lineární regrese.
Interpolace funkčních závislostí
Grafy kvadratických funkcí
Induktivní statistika
Základy statistiky.
ANALÝZA A KLASIFIKACE DAT
Grafy kvadratických funkcí
Transkript prezentace:

Úvod do gradientové analýzy

Koncept společenstva (Mike Austin)

Koncept kontinuální proměnlivosti (Mike Austin)

Skutečná situace je někde mezi tím a je složitější

Původně (a v teorii) Koncept společenstva byl základem klasifikačních metod Koncept kontinuální proměnlivosti byl základem ordinačních metod (gradientové analýzy)

A v praxi ... Pokud potřebuji vegetační mapu (nebo kategorie stanovišť pro ochranu přírody) – budu užívat klasifikaci Pokud mne zajímají změny, gradienty, vztahy – použiji gradientovou analýzu (ordinace)

Metody gradientové analýzy

Model druhové odezvy Pro krátký gradient je model lineární odezvy dobrou aproximací Pro delší gradient ale není

Pozor! Ve většině případů ani lineární ani unimodální model nepopisují skutečný vztah většiny druhů k prostředí Užívám metody založené na jednom z těchto modelů ne proto, že bych věřil, že se druhy podle nich opravdu chovají, ale protože je považuji za rozumný kompromis mezi realitou a uchopitelností (srovnávání mezi druhy)

Odhad parametrů unimodální křivky metodou váženého průměrování Optimum Tolerance

Výpočet váženého průměru

Pro kratší gradient ... Techniky založené na lineárním modelu druhové odezvy jsou vhodné pro homogenní data, metody váženého průměrování (unimodální) jsou vhodné pro více heterogenní data

Kalibrace (vážené průměrování)

Ordinační metody

Ordinační diagram: druhy a vzorky Blízkost znamená podobnost a (ještě více) odlehlost nepodobnost

přidány charakteristiky prostředí Ordinační diagram: přidány charakteristiky prostředí

Dvě formulace cílů ordinačních metod Najdi uspořádání vzorků v ordinačním prostoru, které nejlépe odpovídá jejich vzájemné podobnosti v druhovém složení. Mnohorozměrné škálování (multidimensional scaling) – PCoA a NMDS Najdi „latentní“ proměnné (ordinační osy), nejlépe předpovídající hodnoty pro všechny druhy (tj. druhové složení vzorků). Je třeba zvolit model druhové odezvy (lineární vs. unimodální) – odpovídající míry distance!

Dvě formulace cílů (2) Obě formulace cílů ordinačních metod (konfigurace bodů vs. hledání latentních vysvětlujících proměnných – gradientů) často vedou k jednomu řešení: Lineární metoda PCA - osy jsou nejlepší prediktory pro lineární model a rozmístění bodů odráží Eukleidovské distance Unimodální metoda CA - osy jsou nejlepší (±) prediktory pro unimodální model a rozmístění bodů odráží chi-square distance

Manipulace s daty Transformace je algebraická funkce, kterou lze aplikovat nezávisle na každou hodnotu (log, √) Standardizace (sensu lato) se provádí ve vztahu k hodnotám ostatních druhů ve vzorku (standardization by samples) nebo ve vztahu k hodnotám druhu v ostatních vzorcích (standardization by species) Dva typy standardizace: centrování (odečtení průměru, obvykle pro druhy) a standardizace (v užším smyslu) – vydělení normou

Eukleidovská distance (lineární metody) Při užití Eukleidovské distance s daty, u kterých chceme standardizovat přes vzorky, je lepší použít standardizaci normou, nikoliv na konstantní součet

Chi-square distance (unimodální metody) Si+ je součet hodnot všech druhů ve vzorku i S+j je součet hodnot druhu j přes všechny vzorky

Hlavní výsledky ordinační metody Skóre vzorků (sample scores): hodnoty latentních proměnných pro jednotlivé vzorky (jejich pozice na ordinační ose) Skóre druhů (species scores): parametr modelu druhové odezvy, fitovaného pro každý druh zvláště. Pro unimodální metodu jsou skóre druhů jejich optima a skóre vzorků lze získat ze skóre druhů a také naopak.

Výpočet ordinačního modelu metodou váženého průměrování [1] začni libovolnými skóre pro vzorky (xi) [2] vypočti skóre druhů (yj) váženým průměrováním (regresí) ze skóre vzorků (xi) [3] vypočti nová skóre vzorků (xi) váženým průměrováním (kalibrací) ze skóre druhů (yj) [4] standardizuj rozsah skóre vzorků („natáhni osu“) [5] při již malé změně skóre ukonči, jinak [2] eigenvalue charakteristické č.

Charakteristická čísla Čím větší charakteristické číslo (eigenvalue), tím více je „jeho“ ordinační osa schopna vysvětlovat data V metodách váženého průměrování (WA, unimodální metody) je vždy l <= 1 a rovné 1 jen pro dokonalé oddělení (perfect partitioning)

Omezená ordinace (constrained ordination) [1] začni libovolnými skóre pro vzorky (xi) [2] vypočti skóre druhů (yj) váženým průměrováním (regresí) ze skóre vzorků (xi) [3] vypočti nová skóre vzorků (xi) váženým průměrováním (kalibrací) ze skóre druhů (yj) [4] standardizuj rozsah skóre vzorků („natáhni osu“) [5] při již malé změně skóre ukonči, jinak [2]

Omezená ordinace (constrained ordination) [1] začni libovolnými skóre pro vzorky (xi) [2] vypočti skóre druhů (yj) váženým průměrováním (regresí) ze skóre vzorků (xi) [3] vypočti nová skóre vzorků (xi) váženým průměrováním (kalibrací) ze skóre druhů (yj) [3a] vypočti mnohonásobnou regresi skóre vzorků (xi) na charakteristikách prostředí a použij fitované hodnoty jako nová skóre vzorků (x’i) [4] standardizuj rozsah skóre vzorků („natáhni osu“) [5] při již malé změně skóre ukonči, jinak [2] Ordinační osa je zde lineární kombinací charakteristik prostředí

Základní ordinační metody Detrending: ->detrended CA=DCA (a DCCA) Hybridní analýzy

Detrending a obloukový efekt Druhá osa je z definice lineárně nezávislá na první To ale nezabrání kvadratické závislosti (arch effect) Detrending (by segments) je heuristický způsob, jak zabránit tomu, aby jako druhá (či vyšší) ordinační osa byla „nalezena“ takováto závislost Detrending by polynomials

Dva pohledy na použití charakteristik prostředí Můžeme spočítat nepřímou ordinaci (PCA/CA/DCA) a interpretovat její výsledky pomocí změřených charakteristik Můžeme spočítat omezenou ordinaci (RDA/CCA) Tyto přístupy jsou komplementární a máme-li změřené charakteristiky prostředí, je správné použít oba přístupy Porovnání výsledků umožní lépe posoudit význam studovaných charakteristik prostředí

Použití kategoriálních proměnných Dummy variables Jejich použití v regresi odpovídá použití faktorů v analýze variance

Testy hypotéz v omezené ordinaci V omezené ordinaci (=přímá gradientová analýza, CCA nebo RDA) jsou charakteristiky prostředí součástí modelu Má zde tedy smysl testovat hypotézy o vztahu složení společenstva k prostředí Distribuce testových statistik je neznámá nebo neurčitelná (závislá na konkrétních datech) Monte Carlo permutační testy

Monte Carlo permutační test