5. cvičení 2.12.2014.

Slides:



Advertisements
Podobné prezentace
Testování neparametrických hypotéz
Advertisements

Jak číst ordinační diagramy
Hodnocení práce Hodnocení práce je nástrojem zajišťujícím, aby požadavky, náročnost, složitost a podmínky práce se odrazily v diferenciaci odměny pracovníka.
Biologická diverzita a Indexy biodiverzity
Grafy v Excelu.
Matice distancí v mnohorozměrné analýze. Distanční matice – proč se objevují? Vzdálenosti mezi objekty v terénu Vzdálenosti mezi taxony ve fylogenetickém.
Shlukovací algoritmy založené na vzorkování
Analýza kvantitativních dat I.
Shluková analýza.
Příprava datového souboru pro vizualizaci a srovnání species abundance models.
Vyhledávání podobností v datech s využitím singulárního rozkladu
Hodnocení rizik v procesu EIA/SEA Část 5 Samostatná práce účastníků semináře Zadání.
Úvod do gradientové analýzy
Požadavky na vypracování rozptylových studií
Míry podobnosti Klastrová analýza Metoda TWINSPAN
Analytické nástroje MS Dynamics NAV Ing.Jaromír Skorkovský, CSc.
Úvod do gradientové analýzy
Lineární regresní analýza
Biostatistika 6. přednáška
Test dobré shody Fisherův přesný test McNemar test
Makrozoobentos a klasifikace toků Jarkovský J. 2,3, Kubošová K. 2,3, Zahrádková S. 1, Brabec K. 1, Kokeš J. 4, Klapka R. 2,3 1) Ústav botaniky a zoologie,
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová III. Kontingenční tabulky v Excelu.
Pohled z ptačí perspektivy
ISS Úlohy o podobnosti objektů, mnohorozměrné škálování Semináře ke kurzu Analytické metody výzkumu Jindřich Krejčí.
MS Excel 2 Martin Kotlík Brno, 20. ledna 2015 Obsah předchozího semináře 1 1.Popis programu Excel 2.Základní dovednosti 3.Typy vkládaných dat 4.Formát.
Grafy v Excelu.
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Univerzita třetího věku kurz Pokročilý Tabulkový procesor 2.
Vícerozměrné statistické metody
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
Biostatistika 1. přednáška Aneta Hybšová
Marketingový průzkum Milan Mrázek Matematika & Business
B USINESS INTELLIGENCE. C O JE BI? BI je sada procesů, aplikací a technologií, jejichž cílem je účinně a účelně podporovat rozhodovací procesy ve firmě.
Teorie psychodiagnostiky a psychometrie
Vícerozměrné metody.
Popisná analýza v programu Statistica
1. cvičení
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Inferenční statistika - úvod
EXCEL – tisk a tvorba grafů Gymnázium a Jazyková škola s právem státní jazykové zkoušky Svitavy Ditta Kukaňová.
© Institut biostatistiky a analýz Vícerozměrné metody - cvičení RNDr. Eva Janoušová Podzim 2014.
Teorie portfolia Markowitzův model.
Ukládání dat biodiverzity a jejich vizualizace
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J
INDUKTIVNÍ STATISTIKA
Opakování – přehled metod
Popisná statistika I tabulky četností
Neparametrické testy parametrické a neparametrické testy
4. cvičení
- váhy jednotlivých studií
Neparametrické testy parametrické a neparametrické testy
Úlohy o podobnosti objektů, mnohorozměrné škálování
Popisná analýza v programu Statistica
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
3. cvičení
Spojitá a kategoriální data Základní popisné statistiky
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J
Vícerozměrná analýza biodiverzity
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Homogenita meteorologických pozorování
Typy proměnných Kvalitativní/kategorická binární - ano/ne
PSY117 Statistická analýza dat v psychologii Přednáška
Metodologie pro ISK 2 Úvod do práce s daty
Metodologie pro ISK 2 Kontrola dat Popis kategorizovaných dat
Rozvoj IT kompetencí Pavla Kovářová.
Základy statistiky.
Základy popisné statistiky
Transkript prezentace:

5. cvičení 2.12.2014

Korespondenční analýza Korespondenční analýza – nástroj pro analýzu vztahů mezi řádky a sloupci kontingenční tabulky => dvě kategoriální proměnné. Abundance taxonů (nebo počet jakýchkoliv objektů) na lokalitách lze brát jako kontingenční tabulku a mírou vztahu mezi řádky (lokality) a sloupci (taxony) je velikost chi-kvadrátu sites L1 L2 L3 L4 L5 Kategorie druhé proměnné S1 S2 Kategorie první proměnné S3 species S4 S5 S6 Základní myšlenkou metody korespondenční analýzy je odvodit indexy (osy), které budou kvantifikovat vztahy mezi řádkovými a sloupcovými kategoriemi. Z těchto indexů můžeme odvodit, která sloupcová kategorie má větší či menší váhu v daném řádku a opačně. V grafu interpretujeme relativní pozice bodů řádků a sloupců jako váhy přislouchající danému sloupci a řádku.

Korespondenční analýza Princip Korespondenční analýza hledá, které kombinace řádků a sloupců hodnocené tabulky nejvíce přispívají k její variabilitě Teoretická vyrovnanosť Realita

Korespondenční analýza Statistics >> Multivariate Exploratory Techniques >> Correspondence Analysis Podstatou korespondenční analýzy je analýza kontingenčních tabulek, tj. tabulek kde průsečíky řádků a sloupců obsahují frekvenci dané kombinace Nastavení vstupních dat raw data – proměnné s názvy řádků a sloupců tabulky – frekvence se dopočítají frekvence s třídící proměnnou – sloupec názvů řádků, názvů sloupců, sloupec s frekvencemi frekvence bez řídící proměnné – klasická tabulka – řádky X sloupce, na průsečíku frekvence

Korespondenční analýza – výsledky Quick Koordináty řádků a sloupců v souřadném systému Popis analýzy Výstup všech základních výsledků Počet rozměrů pro grafy a tabulky Vybere počet os, vyčerpávajících určitou hodnotu inertia 1D, 2D, 3D grafy řádků a sloupců v souřadném systému

Row and column coordinates Obdoba kvality (cos2 a relative inertia pro jednotlivé dimenze Koordináty v ordinačním prostoru CA Sloupce nebo řádky (samostatné tabulky) Celkový podíl řádku v tabulce relativních frekvencí (výpočet závisí na nastavení záložky options) Kvalita zobrazení daného bodu daným počtem dimenzí (proporce bodu k celkové inertii dané počtem dimenzí) Podíl bodu na celkové inertii (neovlivněno počtem dimenzí)

Grafy CA 1D,2D,3D Grafy mohou být generovány pro všechny kombinace dimenzí. Grafy obsahují koordináty jak řádků, tak sloupců původní tabulky.

Korespondenční analýza - nastavení Počet rozměrů pro grafy a tabulky Vybere počet os, vyčerpávajících určitou hodnotu inertia Způsob standardizace koordinátů Interpretace vzdáleností v rámci řádků i sloupců Kanonická standardizace Interpretace jen v rámci řádků Interpretace jen rámci sloupců

Korespondenční analýza– výsledky Advanced Koordináty řádků a sloupců v souřadném systému Výstup všech základních výsledků 1D, 2D, 3D grafy řádků a sloupců v souřadném systému Eigenvalues ~ inertia “vysvětlená“sloupci + graf Tabulka frekvencí výskytu + nestandartizované koordináty Nastavení grafů – výběr os, zkrácení popisek, identické měřítko

% inertia a kumulativní inertia vybraná dimenzí eigenvalue Vysvětlený 2 Jednotlivé dimenze eigenvalue Počet dimenzí

Korespondenční analýza analyzuje kontingenční tabulky, k původní tabulce frekvencí je vytvořena tabulka očekávaných frekvencí a tyto dvě tabulky jsou pomocí 2 srovnány, analýza hledá takové nové dimenze, které vyčerpávají maximální část celkové 2 hodnoty (tzv. inertia) sloupce Podíly řádků a sloupců relativní frekvence bodů v původní matici suma celé matice řádky

Korespondenční analýza– přehledy Pozorované četnosti Očekávané četnosti Podíly v řádcích Rozdíl pozorovaných a očekávaných frekvencí Podíly v sloupcích Podíly v celé tabulce Standartized deviates – odmocnina vlivu na Chi – square + doplnění znaménka Vliv jednotlivých položek tabulky na celkový Chi-square

K výsledkům analýzy je možné přidat další řádky nebo sloupce, jejichž pozice v souřadném prostoru se spočítají na základě CA, ale její výpočet neovlivní (obdoba suplementary variables a ne-active cases u PCA Přidání dalších řádků nebo sloupců Přidají se do analýzy na základě již spočítaných parametrů

Nemetrické mnohorozměrné škálování (NMDS) Cílem analýzy je zobrazit pozorované podobnosti nebo nepodobnosti (vzdálenosti) mezi zkoumanými objekty v euklidovském prostoru; zachovává pouze pořadí vzdáleností Pomocí NMDS můžeme analyzovat nejenom korelační matice (tak jako je tomu v PCA) ale i jakoukoliv jinou matici podobnosti/nepodobnosti Výhody: Neparametrická ordinace – robustnější k odlehlým hodnotám Dá se použít před použitím nehierarchického shlukování k-průměrů (v případech kdy není možné použít euklidovské vzdálenosti) Nevýhody: Nutnost specifikovat počet dimenzí předem Těžko interpretovatelné výsledky v některých případech

Multidimensional Scaling Statistics >> Multivariate Exploratory Techniques >> Multidimensional Scaling Multidimensional scaling dokáže na základě asociační matice s libovolnou metrikou vytvořit její Euklidovskou reprezentaci (příklad: na základě tabulky vzdáleností měst vytvoří mapu). Výběr parametrů (vstupní soubor musí mít formát asociační matice) Počáteční konfigurace Počet dimenzí k extrakci Vzdálenosti menší než jsou považovány za 0 Počty iterací

Multidimensional Scaling - výpočet Multidimensional scaling může sloužit pro přípravu podkladů pro k-means clustering pokud nemůžeme na naše data použít Euklidovskou vzdálenost. Metoda je výpočetně velmi náročná. Parametry měnící se při přepočtech

Multidimensional Scaling – výsledky Quick Popis analýzy Výstup nových dimenzí + charakteristiky Výstupní 2D a D graf Shephard diagram ~ věrnost reprezentace

Multidimensional Scaling – výsledky tabulky objekty Nové dimenze Shepard diagram Stress – měřítko reprezentace, čím nižší, tím lepší reprezentace Alienation – cizost, čím nižší, tím lepší reprezentace vzdálenosti D-hat ~ průběh vzdáleností při dobré reprezentaci

Multidimensional Scaling – výsledky Advanced Výstup nových dimenzí + charakteristiky Výstupní 2D a 3D graf D-hat, D-star D-hat, D-star versus reprodukovaná vzdálenost ~ věrnost reprodukce Matice vzdáleností (reprodukovaná) Sumární hodnoty (reprodukovaná vzdálenost, D-hat, D-star) Shepard diagram

Vzdálenosti x D-har (D-star) 2D graf Vzdálenosti x D-har (D-star) Shepard diagram 3D graf