RNDr. Monika Pávková Goldbergová

Slides:



Advertisements
Podobné prezentace
Statistika.
Advertisements

Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Testování parametrických hypotéz
Testování statistických hypotéz
Statistické metody v ochraně kulturního dědictví
Statistické charakteristiky variability
Cvičení 6 – 25. října 2010 Heteroskedasticita
EXPLORATORNÍ STATISTIKA
Charakteristiky variability
KVANTILY OA a VOŠ Příbram.
BOX - PLOT OA a VOŠ Příbram.
Charakteristiky polohy hodnoty znaku - čísla popisující polohu znaku na číselné ose -můžeme zvolit: -Aritmetický průměr -Modus, medián -Harmonický průměr.
Základní statistické pojmy a postupy
Obsah statistiky Jana Zvárová
Náhodná proměnná Rozdělení.
MUDr. Michal Jurajda, PhD. ÚPF LF MU
Odhady parametrů základního souboru. A) GNR B) neznámé r. ZS (přesné parametry) : ,   VS (odhady parametrů): x, s x.
základní principy a použití
Biostatistika 6. přednáška
Biostatistika 7. přednáška
Biostatistika 4. přednáška
Popisná statistika III
Teorie psychodiagnostiky a psychometrie
Popisné statistiky. Výskyt strupovitosti se zdá být ve vztahu s obsahem některých chemických prvků “ve slupkách“ hlíz. Některé odrůdy trpí strupovitostí.
Pohled z ptačí perspektivy
MATEMATICKÁ STATISTIKA
Na co ve výuce statistiky není čas
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
8. Kontingenční tabulky a χ2 test
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
Základy statistiky Autor: Jana Buršová.
Popisná analýza v programu Statistica
1. cvičení
Základy testování hypotéz
Inferenční statistika - úvod
Mann-Whitney U-test Wilcoxonův test Znaménkový test
Popisná statistika úvod rozdělení hodnot míry centrální tendence
Základy popisné statistiky
Základy statistiky Základní pojmy. Základy statistiky Statistiku můžeme chápat jako činnost - získávání stat. údajů, jejich zpracování a vyhodnocení jako.
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
Statistické testování – základní pojmy
Přednáška č. – 4 Extrémní hodnoty a analýza výběrových souborů
Neparametrické testy parametrické a neparametrické testy
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
Statistika 2.cvičení
Neparametrické testy parametrické a neparametrické testy
Popisná statistika: přehled
Popisná analýza v programu Statistica
Induktivní statistika
Normální rozdělení a ověření normality dat Modelová rozdělení
Bi8600: Vícerozměrné metody – cvičení
METODOLOGIE MAGISTERSKÉ PRÁCE
Spojitá a kategoriální data Základní popisné statistiky
Úvod do statistického testování
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Typy proměnných Kvalitativní/kategorická binární - ano/ne
Neparametrické testy pro porovnání polohy
Kapitola 3: Centrální tendence a variabilita
Koncepce normality/normálnosti v medicíně
Základní zpracování dat Příklad
Statistika a výpočetní technika
Analýza kardinálních proměnných
Autor: Honnerová Helena
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
Základy popisné statistiky
Transkript prezentace:

RNDr. Monika Pávková Goldbergová Statistika I. RNDr. Monika Pávková Goldbergová

bylo spácháno po požití chleba“ „95% vražd bylo spácháno po požití chleba“

Co je to statistika? = vědecké studium dat popisujících existující variabilitu a hodnotící hypotézy vysvětlující data

Data v biologii Soubory a populace Proměnná = znak (variable, character) Data = naměřené hodnoty proměnné

Statistická indukce základní soubor (populace) výběr soubor prvků, o kterém chceme statistickými metodami něco zjistit výběr reprezentativní část dané populace (zákl. souboru), která má sloužit k odvození závěrů platných pro celou populaci

Data v biologii – proměnné     binární (binary v.) vícestavová (multi-state v.)

Data v biologii – proměnné kvalitativní kategoriální, nominální (např. pohlaví)  potřeba kódování kvantitativní diskrétní kontinuální / spojitá ordinální (např. známky ve škole 1,2,3,4,5) Data

Data v biologii - proměnné primární (primary v.; nezávisle zjišťovaná) Proměnná odvozená (derived v.; = poměry, indexy) extenzivní (měřící množství) intenzivní (měřící stav)

Postup při testování hypotéz Formulujeme nulovou hypotézu (H0) a k ní alternativu (HA). Zvolíme hladinu významnosti (significance level, a) s důsledky chyby I. druhu. Zvolíme rozsah výběru. Provedeme experiment (pozorování) Volba testu V tabulkách nalezneme kritickou hodnotu (critical value, ka). Jestliže T < ka, nezamítneme (not reject) nulovou hypotézu. Jestliže T > ka, zamítneme (reject) hypotézu - odchylky od hypotézy jsou statisticky významné. Vypočteme sílu (power) testu a rozhodneme, zda pravděpodobnost s níž zamítáme nulovou hypotézu když neplatí je dostatečně velká a pravděpodobnost chyby II. druhu je dostatečně malá.

Co jsou chyby I. a II. řádu? Chyba I. Druhu (Type I error) je spojena se zamítnutím nulové hypotézy, která ve skutečnosti platí její pravděpodobnost se nazývá hladina významnosti (significance level) značí se a velikost této chyby se volí malá (< 0,05) a Chyba II. Druhu (Type II error) Značí se b je pravděpodobnost nesprávného přijetí nulové hypotézy (1- b) se nazývá síla testu a jedná se o pravděpodobnost, že zamítneme nulovou hypotézu, která ve skutečnosti neplatí (alespoň 0,8) závisí na velikosti výběru (s větším souborem klesá)

koeficient kvartilové variace Popisná statistika charakteristiky centrální tendence a rozptýlenosti - přehled   Variation ratio koeficient kvartilové variace

Charakteristiky centrální tendence (střední hodnoty) Kvantitativní data Nominální data Vážený aritmetický průměr Modus = nejčastější hodnota Ordinální data Medián = 50 percentil, frekvenční střed (v pořadí) Geometrický průměr (pouze pro x>=0) Kvantitativní data Harmonický průměr Aritmetický průměr (pouze pro x>0)

Vztah mezi modusem, mediánem a průměrem v případě kvantitativních dat Unimodální rozdělení Bimodální r. Kladně šikmé r. Záporně šikmé r.

Charakteristiky rozptýlenosti (variability) Nominální data Kvantitativní data Entropie (diversity) Absolutní odchylka Variation ratio Rozptyl (variance) (2) Ordinální data Rozmezí, rozsah (range) = min-max Standardní (směrodatná) odchylka (standard deviation) (SD, ) Mezikvartilové rozpětí Kvartilová odchylka Variační koeficient (= rozdíl mezi 75. a 25. kvantilem)

k = (počet pozorování~n) krát (úroveň kvantilu~p) / 100 Kvantily (quantiles) Kvantil xp (= p-procentní kvantil) je hodnota znaku, pro kterou platí, že nejméně p-procent prvku má hodnotu menší nebo rovnu xp a 100-p prvků je větších nebo rovno xp. k = (počet pozorování~n) krát (úroveň kvantilu~p) / 100 Kvartily = x25 , x50 , x75 Medián = x50 Dolní kvartil = x25 (lower quartile) Horní kvartil = x75 (upper quartile) Decily = x10, x20, …,x90 Percentily = x1, x2, …, x99 .....

Sloupcový (pseudo3D) diagram (Bar chart) Grafická prezentace dat Data kvalitativní Data kvantitativní Sloupcový (2D) diagram (Bar chart) Sloupcový (pseudo3D) diagram (Bar chart) Koláčový diagram (Doughnut chart) Spojnicový diagram, polygon (Line chart, polygon) Barva květů Příklad Počet květů v květenství

Krabičkový diagram (Box-plot) Graf je vhodný též na určení odlehlých hodnot. Odlehlá (vzdálená) hodnota (outlier) Vous (whisker) Vnitřní hradba (upper fence) (=1,5xIQR) Průměr Horní kvartil Krabička (box) Medián Dolní kvartil Vous (whisker) Vnitřní hradba (lower fence) (=1,5xIQR) IQR=mezikvartilové rozpětí=rozdíl mezi horním a dolním kvartilem

Typy rozložení Binomické Poissonovo Normální Standardizované normální Studentovo t-rozložení, ….. Nevhodné rozložení transformace

Poissonovo rozdělení pro různé hodnoty m. Binomické rozdělení Poissonovo rozdělení Poissonovo rozdělení pro různé hodnoty m. Obr.: Zar 1996

Normální rozdělení (Gaussovo r., „normála“; normal distribution) je rozdělení spojité proměnné na intervalové a poměrné stupnici značí se N (m,s2) hustota pravděpodobnosti je symetrická, zvonovitá funkce obsahuje dvě konstanty (e, p) a má dva parametry: m a s2 f(x)

Normální rozdělení Hustota pravděpodobnosti normálního rozdělení při (a) různém m a stejném s a (b) při různém s a stejném m Obr.: Zar 1996

při různých stupních volnosti Studentovo t-rozdělení je podobné standardizovanému normálnímu rozdělení je symetrické kolem střední hodnoty m = 0 má pouze 1 parametr: stupně volnosti: n = n-1 Hustota pravděpodobnosti t-rozdělení při různých stupních volnosti Obr.:Zar 1996

* a/2 Oboustranný test Příklad: hodnota Příklad: testuji průměr kvantitativní spojité proměnné (např. výšku, hmotnost) z výběru proti očekávané hodnotě při  = 0,05. a hodnota Jednostranný test 1,96

Statistické testy • t-test závislý • t-test nezávislý nepárové párové • t-test nezávislý (klasický t-test, two-sample) • Mann-Whitney (=Wilcoxon nezávislý) • mediánový test • t-test závislý (one-sample) • Wilcoxon závislý • znaménkový test srovnání parametru mezi 2 skupinami objektů u stejných objektů v časové souslednosti testy parametrické (pro normální nebo téměř normální rozložení) neparametrické (pro jiné než normální rozložení)

Testování hypotéz – rozhodovací strom aneb jaký test použít ? * * *…nebo 2 znaky test pro nominální data test pro ordinální data jednovýb. Wilcoxonův test test pro kvantit. data

Nominální znaky Frekvenční tabulka (qualitative frequency table) Čeleď Pozorovaná frekvence (ni) Relativní četnost (fi=ni/n) Asteraceae 20 0,4 Poaceae 15 0,3 Brassicaceae 5 0,1 Juncaceae 10 0,2 Součet 50 1,0 Kategorie i

Nominální znaky Relativní četnost (fi ) = Absolutní četnost (ni ) = relativní vyjádření absolutní četnosti ni dané kategorie i k součtu ni Absolutní četnost (ni ) = počet prvků v dané kategorii i i = 1, 2, …, k

Spojité znaky Frekvenční (četnostní) tabulka (frequency table)

Spojité znaky Tečkový graf = diagram rozptýlení (dot plot) Histogram Krabicový diagram (box plot)

je-li menší z obou T < T(2),n ....zamítáme H0 Neparametrické statistické metody pro 2 výběry: párové uspořádání Wilcoxonův pořadový test Co se testuje: H0: Medián rozdílů je nulový. H1:Medián rozdílů je různý od nuly. - počítání rozdílů, jimž se přiřadí pořadí bez ohledu na znaménko od nejmenšího po největší sečtou se pořadí se znaménky + a - zvlášť výsledek jsou testové statistiky T+ a T- Oboustranný test: je-li menší z obou T < T(2),n ....zamítáme H0

Neparametrické statistické metody pro 2 výběry: náhodné uspořádání Mann-Whitneyův U-test - místo změřených hodnot pracujeme s jejich pořadím data seřadíme sestupně či vzestupně (zde sestupně) bez ohledu na různé soubory H0:Rozdělení obou skupin je shodné. HA:Rozdělení obou skupin se liší. (stejným hodnotám dáváme průměrné pořadí) větší z obou U porovnáme s kritickou hodnotou Ua(2),n1,n2 je-li U či U´> Ukrit , zamítáme H0 (v případě řazení vzestupného hledáme menší z obou U)