RNDr. Monika Pávková Goldbergová Statistika I. RNDr. Monika Pávková Goldbergová
bylo spácháno po požití chleba“ „95% vražd bylo spácháno po požití chleba“
Co je to statistika? = vědecké studium dat popisujících existující variabilitu a hodnotící hypotézy vysvětlující data
Data v biologii Soubory a populace Proměnná = znak (variable, character) Data = naměřené hodnoty proměnné
Statistická indukce základní soubor (populace) výběr soubor prvků, o kterém chceme statistickými metodami něco zjistit výběr reprezentativní část dané populace (zákl. souboru), která má sloužit k odvození závěrů platných pro celou populaci
Data v biologii – proměnné binární (binary v.) vícestavová (multi-state v.)
Data v biologii – proměnné kvalitativní kategoriální, nominální (např. pohlaví) potřeba kódování kvantitativní diskrétní kontinuální / spojitá ordinální (např. známky ve škole 1,2,3,4,5) Data
Data v biologii - proměnné primární (primary v.; nezávisle zjišťovaná) Proměnná odvozená (derived v.; = poměry, indexy) extenzivní (měřící množství) intenzivní (měřící stav)
Postup při testování hypotéz Formulujeme nulovou hypotézu (H0) a k ní alternativu (HA). Zvolíme hladinu významnosti (significance level, a) s důsledky chyby I. druhu. Zvolíme rozsah výběru. Provedeme experiment (pozorování) Volba testu V tabulkách nalezneme kritickou hodnotu (critical value, ka). Jestliže T < ka, nezamítneme (not reject) nulovou hypotézu. Jestliže T > ka, zamítneme (reject) hypotézu - odchylky od hypotézy jsou statisticky významné. Vypočteme sílu (power) testu a rozhodneme, zda pravděpodobnost s níž zamítáme nulovou hypotézu když neplatí je dostatečně velká a pravděpodobnost chyby II. druhu je dostatečně malá.
Co jsou chyby I. a II. řádu? Chyba I. Druhu (Type I error) je spojena se zamítnutím nulové hypotézy, která ve skutečnosti platí její pravděpodobnost se nazývá hladina významnosti (significance level) značí se a velikost této chyby se volí malá (< 0,05) a Chyba II. Druhu (Type II error) Značí se b je pravděpodobnost nesprávného přijetí nulové hypotézy (1- b) se nazývá síla testu a jedná se o pravděpodobnost, že zamítneme nulovou hypotézu, která ve skutečnosti neplatí (alespoň 0,8) závisí na velikosti výběru (s větším souborem klesá)
koeficient kvartilové variace Popisná statistika charakteristiky centrální tendence a rozptýlenosti - přehled Variation ratio koeficient kvartilové variace
Charakteristiky centrální tendence (střední hodnoty) Kvantitativní data Nominální data Vážený aritmetický průměr Modus = nejčastější hodnota Ordinální data Medián = 50 percentil, frekvenční střed (v pořadí) Geometrický průměr (pouze pro x>=0) Kvantitativní data Harmonický průměr Aritmetický průměr (pouze pro x>0)
Vztah mezi modusem, mediánem a průměrem v případě kvantitativních dat Unimodální rozdělení Bimodální r. Kladně šikmé r. Záporně šikmé r.
Charakteristiky rozptýlenosti (variability) Nominální data Kvantitativní data Entropie (diversity) Absolutní odchylka Variation ratio Rozptyl (variance) (2) Ordinální data Rozmezí, rozsah (range) = min-max Standardní (směrodatná) odchylka (standard deviation) (SD, ) Mezikvartilové rozpětí Kvartilová odchylka Variační koeficient (= rozdíl mezi 75. a 25. kvantilem)
k = (počet pozorování~n) krát (úroveň kvantilu~p) / 100 Kvantily (quantiles) Kvantil xp (= p-procentní kvantil) je hodnota znaku, pro kterou platí, že nejméně p-procent prvku má hodnotu menší nebo rovnu xp a 100-p prvků je větších nebo rovno xp. k = (počet pozorování~n) krát (úroveň kvantilu~p) / 100 Kvartily = x25 , x50 , x75 Medián = x50 Dolní kvartil = x25 (lower quartile) Horní kvartil = x75 (upper quartile) Decily = x10, x20, …,x90 Percentily = x1, x2, …, x99 .....
Sloupcový (pseudo3D) diagram (Bar chart) Grafická prezentace dat Data kvalitativní Data kvantitativní Sloupcový (2D) diagram (Bar chart) Sloupcový (pseudo3D) diagram (Bar chart) Koláčový diagram (Doughnut chart) Spojnicový diagram, polygon (Line chart, polygon) Barva květů Příklad Počet květů v květenství
Krabičkový diagram (Box-plot) Graf je vhodný též na určení odlehlých hodnot. Odlehlá (vzdálená) hodnota (outlier) Vous (whisker) Vnitřní hradba (upper fence) (=1,5xIQR) Průměr Horní kvartil Krabička (box) Medián Dolní kvartil Vous (whisker) Vnitřní hradba (lower fence) (=1,5xIQR) IQR=mezikvartilové rozpětí=rozdíl mezi horním a dolním kvartilem
Typy rozložení Binomické Poissonovo Normální Standardizované normální Studentovo t-rozložení, ….. Nevhodné rozložení transformace
Poissonovo rozdělení pro různé hodnoty m. Binomické rozdělení Poissonovo rozdělení Poissonovo rozdělení pro různé hodnoty m. Obr.: Zar 1996
Normální rozdělení (Gaussovo r., „normála“; normal distribution) je rozdělení spojité proměnné na intervalové a poměrné stupnici značí se N (m,s2) hustota pravděpodobnosti je symetrická, zvonovitá funkce obsahuje dvě konstanty (e, p) a má dva parametry: m a s2 f(x)
Normální rozdělení Hustota pravděpodobnosti normálního rozdělení při (a) různém m a stejném s a (b) při různém s a stejném m Obr.: Zar 1996
při různých stupních volnosti Studentovo t-rozdělení je podobné standardizovanému normálnímu rozdělení je symetrické kolem střední hodnoty m = 0 má pouze 1 parametr: stupně volnosti: n = n-1 Hustota pravděpodobnosti t-rozdělení při různých stupních volnosti Obr.:Zar 1996
* a/2 Oboustranný test Příklad: hodnota Příklad: testuji průměr kvantitativní spojité proměnné (např. výšku, hmotnost) z výběru proti očekávané hodnotě při = 0,05. a hodnota Jednostranný test 1,96
Statistické testy • t-test závislý • t-test nezávislý nepárové párové • t-test nezávislý (klasický t-test, two-sample) • Mann-Whitney (=Wilcoxon nezávislý) • mediánový test • t-test závislý (one-sample) • Wilcoxon závislý • znaménkový test srovnání parametru mezi 2 skupinami objektů u stejných objektů v časové souslednosti testy parametrické (pro normální nebo téměř normální rozložení) neparametrické (pro jiné než normální rozložení)
Testování hypotéz – rozhodovací strom aneb jaký test použít ? * * *…nebo 2 znaky test pro nominální data test pro ordinální data jednovýb. Wilcoxonův test test pro kvantit. data
Nominální znaky Frekvenční tabulka (qualitative frequency table) Čeleď Pozorovaná frekvence (ni) Relativní četnost (fi=ni/n) Asteraceae 20 0,4 Poaceae 15 0,3 Brassicaceae 5 0,1 Juncaceae 10 0,2 Součet 50 1,0 Kategorie i
Nominální znaky Relativní četnost (fi ) = Absolutní četnost (ni ) = relativní vyjádření absolutní četnosti ni dané kategorie i k součtu ni Absolutní četnost (ni ) = počet prvků v dané kategorii i i = 1, 2, …, k
Spojité znaky Frekvenční (četnostní) tabulka (frequency table)
Spojité znaky Tečkový graf = diagram rozptýlení (dot plot) Histogram Krabicový diagram (box plot)
je-li menší z obou T < T(2),n ....zamítáme H0 Neparametrické statistické metody pro 2 výběry: párové uspořádání Wilcoxonův pořadový test Co se testuje: H0: Medián rozdílů je nulový. H1:Medián rozdílů je různý od nuly. - počítání rozdílů, jimž se přiřadí pořadí bez ohledu na znaménko od nejmenšího po největší sečtou se pořadí se znaménky + a - zvlášť výsledek jsou testové statistiky T+ a T- Oboustranný test: je-li menší z obou T < T(2),n ....zamítáme H0
Neparametrické statistické metody pro 2 výběry: náhodné uspořádání Mann-Whitneyův U-test - místo změřených hodnot pracujeme s jejich pořadím data seřadíme sestupně či vzestupně (zde sestupně) bez ohledu na různé soubory H0:Rozdělení obou skupin je shodné. HA:Rozdělení obou skupin se liší. (stejným hodnotám dáváme průměrné pořadí) větší z obou U porovnáme s kritickou hodnotou Ua(2),n1,n2 je-li U či U´> Ukrit , zamítáme H0 (v případě řazení vzestupného hledáme menší z obou U)