2. cvičení 14.10.2014
Grafy ve statistice – 2D Histogramy XY grafy Matrix plot Bag ploty Kategorizované grafy Box ploty Kombinované grafy Grafy na ověřování normality Sloupcový graf
Opakování Datový soubor BMI (list: pacienti) Oveřit normalitu Korelace Kategorizace Kontigenční tabulky
2D grafy Histogram Matrix plot Box plot (Krabicový graf) „správný“ histogram obsah jednoho sloupečku je relativní četnost daného intervalu, a výška sloupečku je hustota četnosti „používaný“ histogram výška sloupečku je absolutní nebo relativní četnost daného intervalu většina SW kreslí „používaný“ histogram Matrix plot Kombinovaný graf Box plot (Krabicový graf) umožňuje posoudit symetrii a variabilitu datového souboru a odlehlé a extrémní hodnoty odlehlá hodnota: (x0.75 + 1,5q, x0.75 + 3q) nebo (x0.25 - 1,5q, x0.25 - 3q) extremní hodnota: (x0.75 + 3q, ∞) nebo (- ∞, x0.25 - 3q) SW Statistka umožňuje vlastní nastavení
Asociace ve vícerozměrném prostoru
Obsah Principy asociace ve vícerozměrném prostoru Euklidovská vzdálenost, Manhattan distance Odvodit asociační matici 5x5 Pythagorova věta (excel, statistka, SPSS) Pomocí makra v excelu horní trojúhelníkovou matici zlinearizovat a vykreslit do histogramu Soubor s množstvím bodů (opět např. města) Odvodit asociační matici nxn vzdušnou čarou Odvodit asociační matici nxn po silnici Ukázat opět xy graf a komentář, že jde o značně obtížnější problém Horní trohúhelníkové matice zlinerizovat a dát do xy grafu proti sobe
Asociace ve vícerozměrném prostoru Data Vícerozměrný prostor Asociační matice
Euklidovská vzdálenost Jde o základní metrické měřítko vzdálenosti a počítá vzdálenost objektů obdobně jako Pythagorova věta počítá přeponu pravoúhlého trojúhelníku. Metoda je citlivá na rozdílný rozsah hodnot vstupujících proměnných (vhodným řešením může být standardizace) a double zero problém. Nemá horní hranici hodnot. Jako další měřítko se používá také čtverec této vzdálenosti. . Jeho nevýhodou jsou semimetrické vlastnosti.
Průměrná vzdálenost Euklidovská vzdálenost je přepočítána na počet parametrů (druhů v případě vzdálenosti společenstev odběrů).
Chord distance (Orlóci, 1967) Odstraňuje double zero problém a vliv rozdílného počtu jedinců druhů ve vzorcích při výpočtu Euklidovské vzdálenosti. Její maximální hodnota je druhá odmocnina ze dvou a minimum 0. Při výpočtu počítá pouze s poměry druhů v rámci jednotlivých vzorků. Jde vlastně o Euklidovskou vzdálenost počítanou pro vektory vzorků standardizované na délku 1, nebo je možný přímý výpočet už zahrnující standardizaci. Vnitřní část výpočtu je vlastně cosinus úhlu svíraného vektory, zápis vzorce je možný i v této formě.
Geodetická metrika Počítá délku výseče jednotkové kružnice mezi normalizovanými vektory (viz. Chord distance).
Asociační matice 1 SW Statistika Metriky
Asociační matice 2a SW SPSS
Asociační matice 2b SW SPSS Metriky
R-ko Volně přístupný na http://www.r-project.org/ Klady Zápory Velké množství základních i pokročilejších funkcí pro statistickou analýzu Velké možnosti v úpravě grafů Zápory Příkazový řádek Nevidíme data
Vzdálenosti měst ČR
Binární koeficienty
Doble-zero problem
Binární koeficienty Symetrické binární koeficienty nerozlišují mezi případy 0-0, 1–1, jsou citlivé na double-zero problém Asymetrické binární koeficienty rozlišují mezi případy 0–0 a 1–1, tímto vylučují problém double -zero. Tyto koeficienty mohou být použity ve shlukové analýze
Symetrické binární koeficienty Simple matching koeficient Rogers & Tanimoto koeficient
Asymetrické binární koeficienty Jaccardův koeficient Sørensenův koeficient