Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
RNDr. Monika Pávková Goldbergová
Statistika I. RNDr. Monika Pávková Goldbergová
2
bylo spácháno po požití chleba“
„95% vražd bylo spácháno po požití chleba“
3
Co je to statistika? = vědecké studium dat popisujících existující variabilitu a hodnotící hypotézy vysvětlující data
5
Data v biologii Soubory a populace
Proměnná = znak (variable, character) Data = naměřené hodnoty proměnné
6
Statistická indukce základní soubor (populace) výběr
soubor prvků, o kterém chceme statistickými metodami něco zjistit výběr reprezentativní část dané populace (zákl. souboru), která má sloužit k odvození závěrů platných pro celou populaci
7
Data v biologii – proměnné
binární (binary v.) vícestavová (multi-state v.)
8
Data v biologii – proměnné
kvalitativní kategoriální, nominální (např. pohlaví) potřeba kódování kvantitativní diskrétní kontinuální / spojitá ordinální (např. známky ve škole 1,2,3,4,5) Data
9
Data v biologii - proměnné
primární (primary v.; nezávisle zjišťovaná) Proměnná odvozená (derived v.; = poměry, indexy) extenzivní (měřící množství) intenzivní (měřící stav)
11
Postup při testování hypotéz
Formulujeme nulovou hypotézu (H0) a k ní alternativu (HA). Zvolíme hladinu významnosti (significance level, a) s důsledky chyby I. druhu. Zvolíme rozsah výběru. Provedeme experiment (pozorování) Volba testu V tabulkách nalezneme kritickou hodnotu (critical value, ka). Jestliže T < ka, nezamítneme (not reject) nulovou hypotézu. Jestliže T > ka, zamítneme (reject) hypotézu - odchylky od hypotézy jsou statisticky významné. Vypočteme sílu (power) testu a rozhodneme, zda pravděpodobnost s níž zamítáme nulovou hypotézu když neplatí je dostatečně velká a pravděpodobnost chyby II. druhu je dostatečně malá.
12
Co jsou chyby I. a II. řádu? Chyba I. Druhu (Type I error)
je spojena se zamítnutím nulové hypotézy, která ve skutečnosti platí její pravděpodobnost se nazývá hladina významnosti (significance level) značí se a velikost této chyby se volí malá (< 0,05) a Chyba II. Druhu (Type II error) Značí se b je pravděpodobnost nesprávného přijetí nulové hypotézy (1- b) se nazývá síla testu a jedná se o pravděpodobnost, že zamítneme nulovou hypotézu, která ve skutečnosti neplatí (alespoň 0,8) závisí na velikosti výběru (s větším souborem klesá)
13
koeficient kvartilové variace
Popisná statistika charakteristiky centrální tendence a rozptýlenosti - přehled Variation ratio koeficient kvartilové variace
14
Charakteristiky centrální tendence (střední hodnoty)
Kvantitativní data Nominální data Vážený aritmetický průměr Modus = nejčastější hodnota Ordinální data Medián = 50 percentil, frekvenční střed (v pořadí) Geometrický průměr (pouze pro x>=0) Kvantitativní data Harmonický průměr Aritmetický průměr (pouze pro x>0)
15
Vztah mezi modusem, mediánem a průměrem v případě kvantitativních dat
Unimodální rozdělení Bimodální r. Kladně šikmé r. Záporně šikmé r.
16
Charakteristiky rozptýlenosti (variability)
Nominální data Kvantitativní data Entropie (diversity) Absolutní odchylka Variation ratio Rozptyl (variance) (2) Ordinální data Rozmezí, rozsah (range) = min-max Standardní (směrodatná) odchylka (standard deviation) (SD, ) Mezikvartilové rozpětí Kvartilová odchylka Variační koeficient (= rozdíl mezi 75. a 25. kvantilem)
17
k = (počet pozorování~n) krát (úroveň kvantilu~p) / 100
Kvantily (quantiles) Kvantil xp (= p-procentní kvantil) je hodnota znaku, pro kterou platí, že nejméně p-procent prvku má hodnotu menší nebo rovnu xp a 100-p prvků je větších nebo rovno xp. k = (počet pozorování~n) krát (úroveň kvantilu~p) / 100 Kvartily = x25 , x50 , x75 Medián = x50 Dolní kvartil = x (lower quartile) Horní kvartil = x75 (upper quartile) Decily = x10, x20, …,x90 Percentily = x1, x2, …, x99 .....
18
Sloupcový (pseudo3D) diagram (Bar chart)
Grafická prezentace dat Data kvalitativní Data kvantitativní Sloupcový (2D) diagram (Bar chart) Sloupcový (pseudo3D) diagram (Bar chart) Koláčový diagram (Doughnut chart) Spojnicový diagram, polygon (Line chart, polygon) Barva květů Příklad Počet květů v květenství
19
Krabičkový diagram (Box-plot)
Graf je vhodný též na určení odlehlých hodnot. Odlehlá (vzdálená) hodnota (outlier) Vous (whisker) Vnitřní hradba (upper fence) (=1,5xIQR) Průměr Horní kvartil Krabička (box) Medián Dolní kvartil Vous (whisker) Vnitřní hradba (lower fence) (=1,5xIQR) IQR=mezikvartilové rozpětí=rozdíl mezi horním a dolním kvartilem
20
Typy rozložení Binomické Poissonovo Normální Standardizované normální
Studentovo t-rozložení, ….. Nevhodné rozložení transformace
21
Poissonovo rozdělení pro různé hodnoty m.
Binomické rozdělení Poissonovo rozdělení Poissonovo rozdělení pro různé hodnoty m. Obr.: Zar 1996
22
Normální rozdělení (Gaussovo r., „normála“; normal distribution)
je rozdělení spojité proměnné na intervalové a poměrné stupnici značí se N (m,s2) hustota pravděpodobnosti je symetrická, zvonovitá funkce obsahuje dvě konstanty (e, p) a má dva parametry: m a s2 f(x)
23
Normální rozdělení Hustota pravděpodobnosti normálního rozdělení při
(a) různém m a stejném s a (b) při různém s a stejném m Obr.: Zar 1996
24
při různých stupních volnosti
Studentovo t-rozdělení je podobné standardizovanému normálnímu rozdělení je symetrické kolem střední hodnoty m = 0 má pouze 1 parametr: stupně volnosti: n = n-1 Hustota pravděpodobnosti t-rozdělení při různých stupních volnosti Obr.:Zar 1996
25
* a/2 Oboustranný test Příklad:
hodnota Příklad: testuji průměr kvantitativní spojité proměnné (např. výšku, hmotnost) z výběru proti očekávané hodnotě při = 0,05. a hodnota Jednostranný test 1,96
26
Statistické testy • t-test závislý • t-test nezávislý
nepárové párové • t-test nezávislý (klasický t-test, two-sample) • Mann-Whitney (=Wilcoxon nezávislý) • mediánový test • t-test závislý (one-sample) • Wilcoxon závislý • znaménkový test srovnání parametru mezi 2 skupinami objektů u stejných objektů v časové souslednosti testy parametrické (pro normální nebo téměř normální rozložení) neparametrické (pro jiné než normální rozložení)
27
Testování hypotéz – rozhodovací strom aneb jaký test použít ?
* * *…nebo 2 znaky test pro nominální data test pro ordinální data jednovýb. Wilcoxonův test test pro kvantit. data
28
Nominální znaky Frekvenční tabulka (qualitative frequency table)
Čeleď Pozorovaná frekvence (ni) Relativní četnost (fi=ni/n) Asteraceae 20 0,4 Poaceae 15 0,3 Brassicaceae 5 0,1 Juncaceae 10 0,2 Součet 50 1,0 Kategorie i
29
Nominální znaky Relativní četnost (fi ) = Absolutní četnost (ni ) =
relativní vyjádření absolutní četnosti ni dané kategorie i k součtu ni Absolutní četnost (ni ) = počet prvků v dané kategorii i i = 1, 2, …, k
30
Spojité znaky Frekvenční (četnostní) tabulka (frequency table)
31
Spojité znaky Tečkový graf = diagram rozptýlení (dot plot) Histogram
Krabicový diagram (box plot)
32
je-li menší z obou T < T(2),n ....zamítáme H0
Neparametrické statistické metody pro 2 výběry: párové uspořádání Wilcoxonův pořadový test Co se testuje: H0: Medián rozdílů je nulový. H1:Medián rozdílů je různý od nuly. - počítání rozdílů, jimž se přiřadí pořadí bez ohledu na znaménko od nejmenšího po největší sečtou se pořadí se znaménky + a - zvlášť výsledek jsou testové statistiky T+ a T- Oboustranný test: je-li menší z obou T < T(2),n zamítáme H0
33
Neparametrické statistické metody pro 2 výběry: náhodné uspořádání Mann-Whitneyův U-test
- místo změřených hodnot pracujeme s jejich pořadím data seřadíme sestupně či vzestupně (zde sestupně) bez ohledu na různé soubory H0:Rozdělení obou skupin je shodné. HA:Rozdělení obou skupin se liší. (stejným hodnotám dáváme průměrné pořadí) větší z obou U porovnáme s kritickou hodnotou Ua(2),n1,n2 je-li U či U´> Ukrit , zamítáme H0 (v případě řazení vzestupného hledáme menší z obou U)
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.