Úvod do gradientové analýzy

Slides:



Advertisements
Podobné prezentace
Mnohorozměrná statistická analýza dat
Advertisements

Dualita úloh lineárního programování a analýza citlivosti
Ideový závěr Co si mám z přednášky odnést (+ komentáře k užití statistiky v biologii)
Monte Carlo permutační testy & Postupný výběr
Jak číst ordinační diagramy
Přednáška 12 Diferenciální rovnice
Statistika schématicky Tomáš Mrkvička. Základy znáte Konfidenční intervaly Porovnání 2 či více výběrů Regresní modely Základy časových řad.
Funkce.
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Základní číselné množiny
Matice distancí v mnohorozměrné analýze. Distanční matice – proč se objevují? Vzdálenosti mezi objekty v terénu Vzdálenosti mezi taxony ve fylogenetickém.
Obecný lineární model Analýza kovariance Nelineární modely
Shluková analýza.
Řízení a supervize v sociálních a zdravotnických organizacích
Inference jako statistický proces 1
Matice.
Lineární regrese.
Regrese Aproximace metodou nejmenších čtverců
Míry podobnosti Klastrová analýza Metoda TWINSPAN
Shluková analýza.
Složitější (mnohorozměrné) metody
Korelace a elaborace aneb úvod do vztahů proměnných
Úvod do gradientové analýzy
Lineární regrese.
Lineární regresní analýza
Závislost dvou kvantitativních proměnných
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Odhad metodou maximální věrohodnost
Mnohorozměrná statistika
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Gradientní metody Metoda největšího spádu (volný extrém)
Klasifikace Míry (ne)podobnosti (Dis)similarity measures, Resemblance functions Shluková analýza - Cluster analysis TWINSPAN.
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
Gradientová analýza II
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Motivační příklad – 1a Vliv rodičů a prostředí na vývoj mláďat Nejstarší mládě v každém hnízdě měřeno ve věku X dní Vysvětlující údaje: počet mláďat, stáří.
Tektonická analýza, podzim 2006, Analýza duktilní deformace I. Zvolte souřadnou soustavu tak, aby osa x byla paralelní s kartami v deformačním boxu, osa.
(řešení pomocí diskriminantu)
Ryze kvadratická rovnice
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
Inferenční statistika - úvod
Klasifikace a rozpoznávání Lineární klasifikátory.
Tektonická analýza, podzim 2006, Analýza duktilní deformace IV. Deformace eliptické nebo elipsoidální částice je popsána vztahem: kde A je matice elipsy.
Základy zpracování geologických dat R. Čopjaková.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Opakování – přehled metod
Induktivní statistika
Induktivní statistika
Operační výzkum Lineární programování Dopravní úloha nevyrovnaná.
4. cvičení
Popisná statistika: přehled
Induktivní statistika
Základy zpracování geologických dat Rozdělení pravděpodobnosti
ANALÝZA A KLASIFIKACE DAT
Klasifikace a rozpoznávání
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Parciální korelace Regresní analýza
Typy proměnných Kvalitativní/kategorická binární - ano/ne
5. cvičení
Hydraulika podzemních vod
ANALÝZA A KLASIFIKACE DAT
Pokročilé neparametrické metody Validační techniky
Lineární regrese.
Grafy kvadratických funkcí
Induktivní statistika
ANALÝZA A KLASIFIKACE DAT
Grafy kvadratických funkcí
Transkript prezentace:

Úvod do gradientové analýzy

Community concept (from Mike Austin)

Continuum concept (from Mike Austin)

Skutečnost je někde mezi, a nejspíš je i o něco komplikovanější

Původně (a teoreticky) Community concept jako základ pro klasifikaci Continuum concept jako základ pro ordinaci / gradientovou analýzu

V praxi Potřebuju vegetační mapu (nebo kategorie pro plán managementu pro AOPK) – Užiju klasifikaci Zajímají mě přechody, gradienty etc. – užiju gradientovou analýzu, ordinaci...

Methods of the gradient analysis

Na krátkém gradientu bývá lineární aproximace dobrou volbou, na dlouhém gradientu nikoliv

Nicméně Ve většině případů, soustředíme-li se na jednotlivý druh, tak ani lineární, ani unimodální odpověď nejsou ideálním řešením. Při studiu celého společenstva – a tedy mnoho druhů současně, užívám metody založené na lineárním nebo unimodálním modelu odpovědi jako rozumný kompromis mezi realističností a jednoduchostí.

Odhadujeme optima druhů váženým průměrováním “Weighted averaging regression” Odhadujeme optima druhů váženým průměrováním Optimum Tolerance

Techniky založené na lineárním modelu odpovědi jsou vhodné pro homogenní data (tedy krátké gradienty), metody založené na váženém průměrování jsou vhodné pro heterogenní data – dlouhé gradienty.

Kalibrace (s užitím váženého průměrování)

Ordinační diagram Urtica Chenopodium Cactus Nymphea Menyanthes Comarum Aira Drosera

Proximity means similarity Ordinační diagram Nutrients Urtica Chenopodium Cactus Nymphea Menyanthes Water Comarum Aira Drosera Proximity means similarity

Dvě možné formulace problému ordinace 1. Nalezni konfiguraci vzorků (objektů) v ordinačním prostoru tak, aby vzdálenosti co nejlépe odpovídali nepodobnosti v jejich druhovém složení. Explicitně to dělá multidimensional scaling. (Metric and non-metric). Musíme mít definováno, jak se měří nepodobnost druhového složení. 2. Nalezni "latentní" proměnné (ordinační osy), které budou nejlepšími prediktory pro hodnoty všech druhů v souboru. Tento přístup vyžaduje, abychom měli definován model (pro všechny druhy stejný) odpovědi druhu na hodnotu prediktoru (tj. ordinační osy). Pozn. Obecně, místo vzorků a druhů můžeme mít objekty, a na nich měřené charakteristiky (proměnné)

Terminologie Staré CANOCO – vzorky (samples), druhy (species), proměnné prostředí (environmental variables) Nové Canoco5 – obecně případy (cases), odpovědi (reponse variables), vysvětlující proměnné (predictors) – ty si ale můžeme libovolně nazvat

Model linearní odpovědi je předpokládán v tzv Model linearní odpovědi je předpokládán v tzv. lineárních metodách ordinace, model unimodální odpovědi v metodách užívajících weighted averaging (též zvané unimodální metody). V lineárních metodách je sample score lineární kombinací (váženým součtem) skore druhů, v unimodálních metodách je to vážený průměr (+nějaké přeškálování). Note: Algoritmus weighted averaging zahrnuje implicitní dvojí standardizaci (po vzrcích i po druzích) U lineárních metod si můžeme vybrat, jestli (a kterou) standardizaci chceme, a kterou ne.

Kvantitativní data Transformace je algebraická funkce Xij’=f(Xij) – aplikujeme ji nezávisle na ostatních hodnotách. Standardizaci provádíme buď s ohledem na ostatní hodnoty ve vzorku (standardization by samples) nebo na hodnoty daného druhu v ostatních vzorcích (standardization by species). [obecně standardizaci provádíme pro případy/objekty – cases, nebo proměnné – variables. Centering znamená odečtení průměru. Výsledný sloupec nebo řádek má potom nulový průměr Standardizace obvykle dělíme hodnotu sumou nebo normou (sloupce nebo řádku). Standardization by total / by norm.

Weighted averaging implikuje užití chi2 distance Všimněte si, že v této míře už je zahrnutá dvojitá standardizace (by total)

Obě formulace mohou vést ke stejnému řešení Obě formulace mohou vést ke stejnému řešení. (Kdyby byly vzorky podobného složení na ordinační ose daleko od sebe, tak ta ordinační osa nemůže mít dobré predikční schopnosti.) Například, principal component analysis – PCA – může být formulována jako projekce v Euklidovském prostoru, nebo jako hledání nejlepšího lineárního prediktoru. Specifikováním typu odpovědi specifikujeme vlastně i užitou míru podobnosti (a vice versa), ale pro některé míry podobnosti neexistuje odpovídající model.

„Dobrá” osa zachovává původní vzdálenosti (nepodobnosti), a je také dobrým prediktorem pro jednotlivé druhy, ‚špatná“ osa nedokáže ani jedno, ani druhé. „bad“ „good“

„Dobrá” osa zachovává původní vzdálenosti (nepodobnosti), a je také dobrým prediktorem pro jednotlivé druhy, „špatná“ osa nedokáže ani jedno, ani druhé.

“Špatná osa” je zcela neužitečná jako prediktor pro jednotlivé druhy

Když jsou proměnné (druhy) prakticky nezávislé, žádná dobrá osa neexistuje – vzdálenosti nejsou zachovávány, a osa neslouží jako prediktor

Za výsledky ordinace považujeme hodnoty jednotlivých vzorků (případů) na ordinační ose (latentní proměnné - latent variable) zvané sample/case scores a odhady optim druhů na této proměnné (the species scores, variable scores) [pro unmodální metody; pro lineární metody jsou to charakteristiky lineární závislosti]. Přitom požadujeme, abych charakteristiky (score) snímků mohly být odhadnuty z charakteristik druhů (váženým průměrováním), a aby charakteristiky druhů mohly být stejně odhadnuty z charakteristik (score) vzorků, Toho lze dosáhnout pomocí následujícího algoritmu:

Step 1 Začni s vybranými (z palce vycucanými) počátečními skore (souřadnicemi) vzorků {xi} Step 2 Spočti skore druhů {yi} pomocí [weighted averaging] regrese z hodnot {xi} Step 3 Spočti nová skore vzorků {xi} pomocí [weighted averaging] kalibrace z hodnot {yi} Step 4 Odstraň „smrštění“ ordinační osy pomocí lineárního přeškálování (natéhni osy – „jako gumu“) Step 5 Při konvergenci můžeš skončit, jinak GO TO Step 2 =eigenvalue

10 Steps 1 to 3 Jako bych měl značky na gumě, a tu gumu natáhnul xmin xmax 10

Délka osy je často arbitrárně daná (ale jsou výjimky – viz dále) Orientace os je arbitrární (co je důležité jsou vzájemné pozice druhů a snímků)

Čím větší je eigenvalue (charakteristické číslo), tím větší je vysvětlující síla dané prdinační osy. Množství vysvětlené variability je úměrné hodnotě eigenvalue. Ve weighted averaging, eigenvalues < 1 (=1 je jenom pro perfect partitioning). V programu CANOCO jsou lineární metody škálovány tak, že sume hodnot eigenvalue = 1 (nemusí platit pro jiné programy) samples perfect partitioning x x 0 x x x x x 0 x species x 0 x x 0 x x x 0 x

Constrained ordination Osa je lineární kombinací měřených proměnných (lineární kombinace = a X1 +b X2 + c X3 ) Step 1 Začni s vybranými (z palce vycucanými) počátečními skore (souřadnicemi) vzorků {xi} Step 2 Spočti skore druhů {yi} pomocí [weighted averaging] regrese z hodnot {xi} Step 3 Spočti nová skore vzorků {xi} pomocí [weighted averaging] kalibrace z hodnot {yi} Step 4 Odstraň „smrštění“ ordinační osy pomocí lineárního přeškálování (natéhni osy – „jako gumu“) Step 5 Při konvergenci můžeš skončit, jinak GO TO Step 2

Constrained ordination Osa je lineární kombinací měřených proměnných (lineární kombinace = a X1 +b X2 + c X3 ) Step 1 Začni s vybranými (z palce vycucanými) počátečními skore (souřadnicemi) vzorků {xi} Step 2 Spočti skore druhů {yi} pomocí [weighted averaging] regrese z hodnot {xi} Step 3 Spočti nová skore vzorků {xi} pomocí [weighted averaging] kalibrace z hodnot {yi} Step 3a – Spočti regresi skore vzorků {xi} na měřených hodnotách prostředí a původní hodnoty nahraď regresními odhady Step 4 Odstraň „smrštění“ ordinační osy pomocí lineárního přeškálování (natéhni osy – „jako gumu“) Step 5 Při konvergenci můžeš skončit, jinak GO TO Step 2

CaseR vs. CaseE Step 3a – Spočti regresi skore vzorků {xi} na měřených hodnotách prostředí a původní hodnoty nahraď regresními odhady CaseR score = hodnota spočtená z druhového složení (kde je vzorek podle druhového složení[nebo obecně podle response variables]) – nicméně, dv souřadnicích os, které jsou určeny proměnými prostředí CaseE score = fitovaná hodnota, tj . Lineární kombinace hodnot proměnných prostředí/ prediktorů (kde by měl vzorek být podle fitovaného modelu) – při kreslení omezených ordinací je to default

Základní ordinační techniky Detrending Hybridní analýzy

Detrending – druhá osa je BY DEFINITION lineárně nezávislá na první ose (korelční koeficient je nula) – to ale nevylučuje možnost nějaké kvadratické závislosti.

Tak vezmeme kladivo a narovnáme ji Pozor, to děláme při každé iteraci – to velmi často donutí metodu najít ekologicky smysluplný gradient - druhá osa, která je kvadratickou funkcí první osy takovým gradientem často nebývá

Detrending by segments (vysoce neparametrické) nebo by polynomials Tak ji narovnáme Detrending by segments (vysoce neparametrické) nebo by polynomials Bez ohledu na svou “heuristickou” povahu, detrending udělá druhou osu často interpretovatelnou

Detrending by segments je spojeno s takzvaným non-linear rescaling - smysl s.d. – units Myšlenka je Odpověď druhu na gradient (zde představovaný osou) má tvar gaussovské křivky – „šířka niky“ může být charakterizována pomocí „s.d.“ (odpovídá směrodatné odchylce příslušného normálního rozdělení – průměrná s.d. (přes všechny druhy) je s.d. unit 1 s.d.

Jednoduchost vs. realističnost V unimodálních metodách, souřadnice (skore) druhů jsou optima druhů (předpokládaný vrchol unimodální křivky), v lineárních metodách jsou šipky směry lineární odpovědi Bylo by samozřejmě hezké mít pro každý druh realističtější odpověď – nicméně, u při uvedeném výrazném zjednodušení nedostaneme do ordinačního diagramu obvykle všechny druhy. Uvést komplikovanější typy odpovědí by znamenalo mít ještě méně druhů, a přehlednost by se úplně ztratila.

CCA (D)CA nebo DVA PŘÍSTUPY Když máme k dispozici jak data o druhovém složení, tak data o prostředí (obecně, odpovědi i prediktory), máme dvě možnosti. 1. Nejdřív spočteme neomezenou (unconstrained) ordinaci, a do ní pasivně promítneme proměnné prostředí (pomocí regrese), nebo spočteme ordinaci přímou. (D)CA S pasivně promítnutými proměnnými prostředí. nebo CCA

Tyto dva přístupy jsou kompementární a měly bychom je užívat oba – nejprve neomezenou, a poté omezenou ordinaci! Pomocí neomezené ordinace jistě zachytíme osy největší variability v druhovém složení, ale některá proměnná prostředí, která má průkazní, ale níkoliv dominantní efekt se může jevit jako nedůležitá, nic nevysvětlující. Když počítáme přímou ordinaci, můžeme vhodně otestovat všechny proměnné prostředí, ale může nám uniknout nejdůležitější osa variability druhového složení, pakliže jsme k ní neměřili příslušnou určující proměnnou prostředí.

Co budeme dělat s kategoriálními proměnnými?

ANOVA grouping=var4 Regression Summary for Dependent Variable: Var7 (Spreadsheet1) Independent Var5 and Var6 R= .88898086 R2= .79028698 Adjusted R2= .73036897 F(2,7)=13.189 p<.00422 Std.Error of estimate: 1.3452

Dummy variables V Canoco 5 (nikoliv ve starších versích), expanze faktoru do dummy variables je dělána automaticky (prostě řekneme programu, tohle je faktor – ale je třeba o tom vědět.

Prediktory an odpovědi jsou obvykle různě korelované, rozdělení odpovědí není normální. Pro testování užíváme proto Monte Carlo permutation test.

Monte Carlo permutation test 10,058 – myšleno zde, obecně je to F v nepermutovaných datech