Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Statistika I. RNDr. Monika Pávková Goldbergová. 95% vražd „ 95% vražd bylo spácháno po požití chleba“

Podobné prezentace


Prezentace na téma: "Statistika I. RNDr. Monika Pávková Goldbergová. 95% vražd „ 95% vražd bylo spácháno po požití chleba“"— Transkript prezentace:

1 Statistika I. RNDr. Monika Pávková Goldbergová

2 95% vražd „ 95% vražd bylo spácháno po požití chleba“

3 Co je to statistika? = vědecké studium dat popisujících existující variabilitu a hodnotící hypotézy vysvětlující data

4

5 Data v biologii Soubory a populace Proměnná = znak (variable, character) Data = naměřené hodnoty proměnné

6 Statistická indukce základní soubor (populace) –soubor prvků, o kterém chceme statistickými metodami něco zjistit výběr –reprezentativní část dané populace (zákl. souboru), která má sloužit k odvození závěrů platných pro celou populaci

7 Data v biologii – proměnné binární (binary v.) vícestavová (multi-state v.)

8 Data v biologii – proměnné kvalitativní kategoriální, nominální (např. pohlaví)  potřeba kódováníkvantitativní diskrétní kontinuální / spojitá ordinální (např. známky ve škole 1,2,3,4,5) Data

9 Data v biologii - proměnné Proměnná Proměnná primární primární (primary v.; nezávisle zjišťovaná) odvozená derived v.poměry, indexy odvozená ( derived v. ; = poměry, indexy ) extenzivní extenzivní (měřící množství) intenzivní intenzivní (měřící stav)

10

11 Postup při testování hypotéz 1.Formulujeme nulovou hypotézu (H 0 ) a k ní alternativu (H A ). 2.Zvolíme hladinu významnosti (significance level,  ) s důsledky chyby I. druhu. 3.Zvolíme rozsah výběru. 4.Provedeme experiment (pozorování) 5.Volba testu 6.V tabulkách nalezneme kritickou hodnotu (critical value, k  . Jestliže T k , zamítneme (reject) hypotézu - odchylky od hypotézy jsou statisticky významné. 7.Vypočteme sílu (power) testu a rozhodneme, zda pravděpodobnost s níž zamítáme nulovou hypotézu když neplatí je dostatečně velká a pravděpodobnost chyby II. druhu je dostatečně malá.

12 Chyba I. Druhu (Type I error) je spojena se zamítnutím nulové hypotézy, která ve skutečnosti platí je spojena se zamítnutím nulové hypotézy, která ve skutečnosti platí její pravděpodobnost se nazývá hladina významnosti (significance level) její pravděpodobnost se nazývá hladina významnosti (significance level) značí se  značí se  velikost této chyby se volí malá (< 0,05) velikost této chyby se volí malá (< 0,05) Chyba II. Druhu (Type II error) Značí se  Značí se  je pravděpodobnost nesprávného přijetí nulové hypotézy je pravděpodobnost nesprávného přijetí nulové hypotézy (1-  ) se nazývá síla testu a jedná se o pravděpodobnost, že zamítneme nulovou hypotézu, která ve skutečnosti neplatí (1-  ) se nazývá síla testu a jedná se o pravděpodobnost, že zamítneme nulovou hypotézu, která ve skutečnosti neplatí (alespoň 0,8)  závisí na velikosti výběru (s větším souborem klesá)  Co jsou chyby I. a II. řádu?

13 Popisná statistika charakteristiky centrální tendence a rozptýlenosti - přehled koeficient kvartilové variace Variation ratio

14 Charakteristiky centrální tendence (střední hodnoty) Modus Modus = nejčastější hodnota Medián Medián = 50 percentil, frekvenční střed Aritmetický průměr Vážený aritmetický průměr Geometrický průměr Harmonický průměr (v pořadí) Nominální data Ordinální data Kvantitativní data (pouze pro x>=0) (pouze pro x>0)

15 Vztah mezi modusem, mediánem a průměrem v případě kvantitativních dat Unimodální rozděleníBimodální r. Kladně šikmé r.Záporně šikmé r.

16 Charakteristiky rozptýlenosti (variability) Entropie ( diversity ) Rozmezí, rozsah ( range ) Rozmezí, rozsah ( range ) = min-max Mezikvartilové rozpětí Absolutní odchylka Kvartilová odchylka Rozptyl ( variance ) Rozptyl ( variance ) (  2 ) Standardní (směrodatná) odchylka ( standard deviation ) odchylka ( standard deviation ) (SD,  ) Variační koeficient (= rozdíl mezi 75. a 25. kvantilem) Nominální data Ordinální data Kvantitativní data Variation ratio

17 Kvantily ( quantiles ) Kvantil x p (= p-procentní kvantil) je hodnota znaku, pro kterou platí, že nejméně p-procent prvku má hodnotu menší nebo rovnu x p a 100-p prvků je větších nebo rovno x p. k = (počet pozorování~n) krát (úroveň kvantilu~p) / 100 Kvartily = x 25, x 50, x 75 Medián = x 50 Dolní kvartil = x 25 (lower quartile) Horní kvartil = x 75 (upper quartile) Decily = x 10, x 20, …,x 90 Percentily = x 1, x 2, …, x

18 Barva květů Grafická prezentace dat Počet květů v květenství Sloupcový (2D) diagram (Bar chart) Sloupcový (pseudo3D) diagram (Bar chart) Koláčový diagram (Doughnut chart) Spojnicový diagram, polygon (Line chart, polygon) Data kvalitativní Data kvantitativní Příklad

19 Krabičkový diagram (Box-plot) Průměr Dolní kvartil Horní kvartil Medián Vnitřní hradba ( upper fence ) (=1,5xIQR) Vnitřní hradba ( lower fence ) (=1,5xIQR) Odlehlá (vzdálená) hodnota ( outlier ) IQR=mezikvartilové rozpětí=rozdíl mezi horním a dolním kvartilem Vous ( whisker ) Graf je vhodný též na určení odlehlých hodnot. Krabička ( box )

20 Typy rozložení Binomické Poissonovo Normální Standardizované normální Studentovo t-rozložení, ….. Nevhodné rozložení transformace

21 Binomické rozdělení Poissonovo rozdělení Poissonovo rozdělení pro různé hodnoty  Obr.: Zar 1996

22 -je rozdělení spojité proměnné na intervalové a poměrné stupnici - značí se N (    -hustota pravděpodobnosti je symetrická, zvonovitá -funkce obsahuje dvě konstanty (e,  a má dva parametry:  a   Normální rozdělení (Gaussovo r., „normála“; normal distribution ) f(x)

23 Normální rozdělení Hustota pravděpodobnosti normálního rozdělení při (a) různém  a stejném  a (b) přirůzném   (b) při různém  a stejném  Obr.: Zar 1996

24 Studentovo t-rozdělení - je podobné standardizovanému normálnímu rozdělení je symetrické kolem střední hodnoty  - má pouze 1 parametr: stupně volnosti:  = n-1 Hustota pravděpodobnosti t-rozdělení při různých stupních volnosti Obr.:Zar 1996

25 Oboustranný test Jednostranný test Příklad: testuji průměr kvantitativní spojité proměnné (např. výšku, hmotnost) z výběru proti očekávané hodnotě při  = 0,05. hodnota hodnota 1,96  /2  *

26 Statistické testy parametrické (pro normální nebo téměř normální rozložení) neparametrické (pro jiné než normální rozložení) testy nepárovépárové t-test nezávislý (klasický t-test, two-sample) Mann-Whitney (=Wilcoxon nezávislý) mediánový test t-test závislý (one-sample) Wilcoxon závislý znaménkový test srovnání parametru mezi 2 skupinami objektů srovnání parametru u stejných objektů v časové souslednosti

27 Testování hypotéz – rozhodovací strom aneb jaký test použít ? test pro nominální data test pro ordinální data test pro kvantit. data * * * …nebo 2 znaky jednovýb. Wilcoxonův test

28 Nominální znaky Čeleď Pozorovaná frekvence (n i ) Relativní četnost (f i =n i /n) Asteraceae200,4 Poaceae150,3 Brassicaceae50,1 Juncaceae100,2 Součet501,0 Frekvenční tabulka ( qualitative frequency table ) Kategorie i

29 Absolutní četnost (n i ) = počet prvků v dané kategorii i Relativní četnost (f i ) = relativní vyjádření absolutní četnosti n i dané kategorie i k součtu n i i = 1, 2, …, k Nominální znaky

30 Spojité znaky Frekvenční (četnostní) tabulka ( frequency table )

31 Spojité znaky Tečkový graf = diagram rozptýlení ( dot plot ) Histogram ( histogram ) Krabicový diagram box plot ( box plot )

32 Neparametrické statistické metody pro 2 výběry: párové uspořádání Wilcoxonův pořadový test - počítání rozdílů, jimž se přiřadí pořadí bez ohledu na znaménko od nejmenšího po největší - sečtou se pořadí se znaménky + a - zvlášť výsledek jsou testové statistiky T + a T - výsledek jsou testové statistiky T + a T - Oboustranný test: je-li menší z obou T < T  (2),n....zamítáme H 0 Co se testuje: H 0 : Medián rozdílů je nulový. H 1 :Medián rozdílů je různý od nuly.

33 Neparametrické statistické metody pro 2 výběry: náhodné uspořádání Mann-Whitneyův U-test -- místo změřených hodnot pracujeme s jejich pořadím data seřadíme sestupně či vzestupně (zde sestupně) bez ohledu na různé soubory větší z obou U porovnáme s kritickou hodnotou U  (2),n1,n2 je-li U či U´> U krit, zamítáme H 0 (v případě řazení vzestupného hledáme menší z obou U) (stejným hodnotám dáváme průměrné pořadí) H0:Rozdělení obou skupin je shodné. HA:Rozdělení obou skupin se liší.


Stáhnout ppt "Statistika I. RNDr. Monika Pávková Goldbergová. 95% vražd „ 95% vražd bylo spácháno po požití chleba“"

Podobné prezentace


Reklamy Google