Biostatistika http://www.prf.jcu.cz/biostat-data.xls
Statistika Citáty o statistice Statistika je věda o přesném nakládání s nepřesnými čísly Známe tři druhy lži: úmyslnou, neúmyslnou a statistiku Statistika nuda je, má však cenné údaje...
Co je to biostatistika V podstatě neexistuje jako samostatný obor. Užíváním toho slova naznačujeme, že se jedná o aplikaci statistických metod na řešení biologických problémů. [a biologická data mají svoje specifika]
A co je tedy statistika? (v laické mluvě) Uspořádaný soubor dat: statistika střel na bránu, statistika úrazů v jednotlivých krajích (v odborné mluvě) Věda, co s těmi daty budeme dělat - (matematická) statistika jako věda V rámci statistiky - nějaká hodnota, kterou z čísel získáme, která nám nějak “syntetizuje” vlastnosti daných čísel
Cíle statistiky (1) Popisná statistika - zpřehlednit soubor dat, “kondenzovat” informaci z mnoha čísel do menšího počtu parametrů nebo do grafu
Srovnej Průměrný počet bodů byl 74,5, přičemž minimum bylo 28 a maximum 100.
Čím méně čísel získám tím je výsledek přehlednější a jednodušší ale tím je také větší ztráta informace (z průměru, ale ani z histogramu už nikdy nedohledám, kolik měl František K., ani kolik byla všechna čísla) - umění najít vhodnou míru, kdy je výsledek ještě přehledný, a přitom neztratil vypovídací schopnost
Díky ztrátě informace lze statistikou krásně lhát
A pomocí grafů ještě lépe:
Poučení: když vám bude někdo říkat, o kolik procent se věci zlepšily, vždy se ptejte, z jakého základu se procenta počítala.
Cíle statistiky (2) Interferenční statistika - Statistika výběrových šetření Některé soubory jsou moc velké [nebo potenciálně nekonečné] - všechny jejich členy nejsem schopen zkontrolovat Co mohu říci o tom, jak dopadnou volby v celé republice, když se zeptám 1000 lidí? Co mohu říci o obsahu Cd v krvi divokých husí v ČR, když se mi podaří odebrat krev deseti?
V biologii jde běžně o interferenční statistiku Nechci dělat závěry o svých deseti krysách na kterých jsem dělal pokus, ale na základě těch deseti chci něco říci o všech pokusech, které by byly prováděny stejným způsobem Jestliže dělám nějaký výzkum, měl by být reprodukovatelný (srov. Journal of Irreproducible Research) – tj. chci mít určitou „záruku“, že pokus dopadne obdobně i příště.
“Statisticky lze dokázat vše” …zvláště lidem, kteří statistice nerozumění “Je statisticky dokázáno, že vdovy žijí déle, než jejich manželé.” Do grafů lze dát cokoliv, a grafy pak vypadají velmi sugestivně, zvlášť když jsou doprovozeny “vhodnou” interpretací (data jsou pro ilustraci vymyšlená, ale podle reality)
“Lék funguje tím lépe, čím je pocientovi hůře.”
“Čápi nosí děti”
Důkaz škodlivost fluorizace (údaje z jednotlivých států USA) Nikakragua by patřila někam sem
Závislost počtu vražd (Vraždy) na počtu mrazových dní (Mráz) v jednotlivých státech USA Výsledky regresní analýzy počtu vražd na 100 000 obyvatel v roce 1976 (Vraždy) v jednotlivých státech USA v závislosti na průměrném počtu mrazových dní v hlavním městě daného státu v letech 1931-1960 (Mráz). P<0.01
Základní soubor (Population) a Náhodný výběr (Random sample) Sampling; Sampling design Náhodný výběr - každé individuum musí mít stejnou pravděpodobnost, že bude vybráno, nezávislou na tom, zda bude vybráno individuum jiné Tabulky a generátory (pseudo)náhodných čísel
Základní soubor (Population) a Náhodný výběr (Random sample) Téměř filosofická otázka - co je to náhoda A co je to pravděpodobnost V statistice budeme (tady v té základní) užívat tzv. apriorní pravděpodobnost (existuje ještě Bayesovská - aposteriorní)
Udělat náhodný výběr není obvykle triviální - v žádném případě to není výběr typických individuí- funguje rozumně v zemědělských pokusech 1 2 3 1 2 3 4 5 6
Podstatně složitější je to v přirozených populacích - nefunguje ani individuum nejbližší náhodnému bodu
Zoologové – to co chytěj, je pro ně často „náhodný výběr“ No jo, ale pak ve výběru nejsou ti, co jsou příliš šikovní na to, abychom je chytili A taky chybí chcípáci, co jsou celou dobu schovaní
Typy (nejen biologických) dat Poměrná (poměrová) stupnice - Ratio scale Intervalová stupnice - Interval scale Ordinální stupnice - Ordinal scale Nominální stupnice (kategoriální data) - Nominal scale Cirkulární stupnice Circular scale 270 90 180
Azimut kmene s nálezem lišejníků [stupně]: 5, 10, 5, 350, 350, 355 => průměr = 180 Čas, kdy houkal sýček: 22:00, 23:00, 24:00, 1:00, 1:00, 2:00 => průměr je krátce po poledni Pozor – průměr pro data na cirkulární škále může existovat, ale počítá se trochu jinak (viz Mackův poster před počítačovnou 1)
Typy (nejen biologických) dat Poměrná (poměrová) stupnice - Ratio scale Intervalová stupnice - Interval scale Ordinální stupnice - Ordinal scale Nominální stupnice (kategoriální data) - Nominal scale Cirkulární stupnice Circular scale 270 90 180
Základní statistické chartakteristiky Většinou značíme N-velikost základního souboru, n - velikost výběru řeckými písmeny se obvykle značí charakteristiky základního souboru, latinkou charakteristiky výběru Charakteristiky polohy: Průměry, medián a modus Průměry jsou definovány pro kvantitativní data (tj. na poměrové a intervalové stupnici)
Aritmetický průměr základního souboru výběru
Medián [lze užít i pro data na ordinální stupnici] Definován tak, že polovina hodnot leží pod, a polovina nad mediánem (v nekonečně velkých souborech - pravděpodobnost, že náhodná hodnota leží nad i pod mediánem je 0,5). V souborech o sudém počtu členů je obvykle za medián považovaná hodnota v půli intervalu mezi dvěma prostředními hodnotami.
Horní a dolní kvartil Nad horním 1/4 pozorování, pod dolním 1/4 pozorování (a obdobně pravděpodobnosti v nekonečně velkých souborech)
Rozlišuj mínění průměru a mediánu Příklad - platy ve dvou podnicích
Modus - nejčastěji se vyskytující hodnota - u spojitých dat “vrchol” histogramu četností – přesněji: lokální maximum křivky hustoty pravděpodobnosti [může být víc než jeden]
Míry variability 1. Rozsah (Range) rozdíl mezi minimem a maximem 2. Mezikvartilové rozpětí 3. Variance a směrodatná odchylka
Variance - průměrná hodnota druhé mocniny (čtverce) odchylky od průměru základního souboru - odhav variance na základě výběru n-1 = df = degrees of freedom = počet stupňů volnosti
Směrodatná odchylka (sx, často také s. d. , S. D Směrodatná odchylka (sx, často také s.d., S.D. - standard deviation) je odmocnina z variance
Porovnej variabilitu váhy slona a mravence Buď použiji varianci nebo směrodatnou odchylku logaritmovaných dat, nebo variační koeficient CV (coefficient of variation) Obojí má smysl jen pro data na poměrové stupnici
Charakteristiky konečného souboru spočteme přesně Charakteristiky (nekonečně velkého) základního souboru odhadujeme na základě výběru První úkol: odhad parametrů na základě výběru – odhad je nutně zatížen nějakou chybou
Střední chyba průměru (standard error of mean) Charakterizuje přesnost výběrového průměru - jaká by byla variabilita průměrů dané velikosti z mnoha nezávislých výběrů variabilita v datech přesnost Zvýšení přesnosti lze dosáhnout zvětšením výběru
Grafické sumarizace - histogram četností Pozor na šíři tříd v histogramu (jak přešně jsme měřili)!
Box and whisker (doslova krabice s knírama, obvykle “krabicový” diagram) Pozor, dnes se box & whisker používá i pro průměr a směrodatnou odchylku apod.
Testování hypotéz + Test dobré shody
Žádnou hypotézu nemohu dokázat Proto formuluji nulovou hypotézu (H0), a tím, že ji vyvrátím, dokazuji její opak. Alternativní hypotéza H1 nebo HA je tedy negací nulové hypotézy Nulovou hypotézu formuluji já, jako biolog - proto musí být nulová hypotéza taková, aby její vyvrácení bylo zajímavé
Chyby v rozhodnutí V případě, že data jsou náhodná (což je v biologii prakticky vždy) musím počítat s tím, že učiním chybné rozhodnutí - statistika zná chybu prvního a druhého druhu (Type I error, Type II error), které jsou nevyhnutelnou součástí našeho rozhodování Kromě toho samozřejmě můžeme udělat ještě chybu tím, že něco nesprávně spočítáme, ale to už (teoreticky) není nevyhnutelné
Kuchařka testování hypotéz 1. Formuluji nulovou hypotézu 2. Zvolím hladinu významnosti a tak dostanu kritickou hodnotu (z nějakých tabulek) 3. Z dat spočtu testovací kriterium 4. Když je hodnota testovacího kriteria větší než hodnota kritická, zamítám nulovou hypotézu
2 test (test dobré shody) Příklad - křížím hrachy: očekávám F1: F2: Mám 80 potomků - očekávám 60:20, dostávám 70:10 Je to jen náhodná variabilita, nebo zde Mendelovské poměry nefungují?
1. Zamítnutí nulové hypotézy o poměru 3:1 je biologicky zajímavé 1. Zamítnutí nulové hypotézy o poměru 3:1 je biologicky zajímavé. Statisticky bych mohl obdobně testovat nulovou hypotézu o poměru 4,2371:1, ale její zamítnutí nám nic biologicky zajímavého nepřinese. 2. Nulová hypotéza bude formálně: pravděpodobnost vzniku dominantního fenotypu je 0,75 (v nekonečně velkém souboru potenciálních potomků jsou poměry fenotypů 3:1)
Výpočet f - absolutní frekvence, tj. počty nezávislých pozorování DF=1 (počet kategorií - 1 pro apriorně danou hypotézu), kritická hodnota = 3,84 Hodnota testového kriteria > kritická hodnota, zamítám nulovou hypotézu - říkám, že poměry v F2 se statisticky průkazně liší od očekávaných 3:1 při = 0.05 - nebo píšu (2 = 6.66, df=1, P<0.05)
Co to jsou kritické hodnoty? Hustota pravděpodobnosti Když toto je 5%, pak 11,1 je kritická hladina na 5% hladině významnosti (zde je DF=5)
Dnes se častěji užívá Můžeme i opačný postup. Spočítali jsme, že chi-kvadrát=14 Plocha “ocásku” = P = 0,014 je dosažená hladina významnosti P je pravděpodobnost, že takto nebo více odlišný výsledek od nulové hypotézy dostaneme jen vlivem náhody, pokud H0 platí.
Nulovou hypotézu tedy zamítáme Pokud se stane něco, co je za předpokladu platnosti nulové hypotézy velmi nepravděpodobné Jak moc nepravděpodobné to musí být? – o tom rozhodneme stanovením α.
Srovnej s Bayesovskou statistikou Na střelnici může být Lepš, nebo Koukupová (biatlonistka). Střílí jeden z nich. Z pěti ran čtyři zásahy. Jaká je likelihood, že střílel Lepš, a jaká, že střílela Koukalová?
Obvykle píšeme výsledek je průkazný při = 0.05 - nebo píšu (2 = 6.66, df=1, P<0.05)
Co se může stát - házím korunou H0: Plev=Ppanna=0,5 Skutečnost - koruna je OK, tj. P0=P1=0,5 (ALE TO MY NEVÍME) 100 hodů, dostávám 55:45 Potom 2=(55-50)2/50+(45-50)2/50 = 1.0 < 3.84. Nemohu zamítnout nulovou hypotézu. Správné rozhodnutí.
Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P0=P1=0,5 (ALE TO MY NEVÍME) 100 hodů, dostávám 60:40 Potom 2=(60-50) 2/50+(40-50) 2/50 = 4.0 > 3.84. Zamítám nulovou hypotézu na 5%-ní hladině významnosti. Udělal jsem chybu prvního druhu - Type I error (a pověsím nevinnýho). Pravděpodobnost této chyby známe: je to . Hladina významnosti je tedy podmíněná pravděpodobnost zamítnutí nulové hypotézy za předpokladu, že nulová hypotéza platí.
Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P0=0,6; P1=0,4 (ALE TO MY NEVÍME) 100 hodů, dostávám 60:40 Potom 2=(60-50) 2/50+(40-50) 2/50 = 4.0 > 3.84. Zamítám nulovou hypotézu na 5%-ní hladině významnosti. Správné rozhodnutí (a pověsím lumpa).
Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P0=0,6; P1=0,4 (ALE TO MY NEVÍME) 100 hodů, dostávám 55:45 Potom 2=(55-50)2/50+(45-50)2/50 = 1.0 < 3.84. Nemohu zamítnout nulovou hypotézu (a osvobodím lumpa). Dopustil jsem se chyby druhého druhu. Její pravděpodobnost označujeme jako a většinou ji neznáme. 1 - je síla testu (power of the test). Obecně platí, že síla testu roste s odchylkou od nulové hypotézy a s počtem pozorování. Protože neznáme, je správná formulace výsledku: Na základě dat nemůžeme zamítnout nulovou hypotézu. Formulace: Dokázali jsme nulovou hypotézu je nesprávná!
Rozhodovací tabulka P, které je výsledkem testu, je tedy pravděpodobnost chyby prvního druhu Při daném počtu pozorování - čím lépe jsem chráněn proti jedné chybě, tím je výsledek náchylnější k druhé chybě. Rozhodnu se, že budu provádět text na 1%ní hladině významnosti - kritická hodnota je potom 6,63
Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P0=P1=0,5 (ALE TO MY NEVÍME) 100 hodů, dostávám 60:40 Potom 2=(60-50) 2/50+(40-50) 2/50 = 4.0 <6,63. Nezamítám nulovou hypotézu na 1%-ní hladině významnosti. - OK, nepověsil jsem nevinnýho.
Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P0=0,6; P1=0,4 (ALE TO MY NEVÍME) 100 hodů, dostávám 60:40 Potom 2=(60-50) 2/50+(40-50) 2/50 = 4.0 < 6,63. Nezamítám nulovou hypotézu na 5%-ní hladině významnosti. Chyba druhého druhu (pouštím lumpa).
Pro 20 hodů korunou
Síla testu Skutečnost - koruna je falešná, tj. P0=0,55; P1=0,45 (ALE TO MY NEVÍME) - Když to dopadne přesně podle pravděpodobností 100 hodů, dostávám 55:45 Potom 2=(55-50)2/50+(45-50)2/50 = 1.0 < 3.84. Nezamítám Ch 2 1000 hodů, dostávám 550:450 Potom 2=(550-500)2/500+(450-500)2/500 = 10.0 > 3.84. Správně zamítám Skutečnost - koruna je falešná, tj. P0=0,51; P1=0,49 100 hodů, dostávám 51:49 Potom 2=(51-50)2/50+(49-50)2/50 = 0.04 < 3.84. Nezamítám Ch 2 1000 hodů, dostávám 510:490 Potom 2=(510-500)2/500+(490-500)2/500 = 0.4 < 3.84. Nezamítám Ch 2 10000 hodů, dostávám 5100:4900 Potom 2=(5100-5000)2/5000+(4900-5000)2/5000 = 4 > 3.84. Správně zamítám.
Síla testu roste S počtem nezávislých pozorování S velikostí odchylky od nulové hypotézy Se snižující se ochranou proti chybě 1. druhu
Příklady použití Štěpné poměry 3:1 9:3:3:1 (počet stupňů volnosti = počet kategorií - 1, pro apriorně danou hypotézu, tedy DF=3)
Příklady použití Poměr pohlaví 1:1 Pozor na předpoklady Nezávislost pozorování! Stejná pravděpodobnost V praxi tedy může být zamítnutí nulové hypotézy důsledkem tří skutečností: 1. Nulová hypotéza neplatí. 2. Nulová hypotéza platí, ale dopustili jsme se chyby 1. druhu. 3. Nulová hypotéza platí, ale my jsme nesplnili všechny předpoklady pro užití testu.
A co když nám vyjde hodnota 2 blízká nule (tj A co když nám vyjde hodnota 2 blízká nule (tj. téměř přesná shoda s nulovou hypotézou)? P>0,99 Nešlo by to považovat za důkaz pravdivosti H0?
TOO GOOD TO BE TRUE Mendelova data jsou příliš dobrá
Nejčastěji užívané statistické metody Odpověď je kvantitativní Porovnání dvou vzorků - t-test Porovnání více vzorků - Analýza variance (ANOVA) Funkční závislost hodnoty jedné proměnné na druhé – regrese Odpověď ANO – NE Kontingenční tabulky
t-test Liší se počet rozkvetlých květů na bočních větvích u nepoškozených a poškozených jedinců? Pozn.: Každý pokus MUSÍ mít nezávislá opakování a kontrolu
Pozor I když náhodně vybereme dvě skupiny po deseti z nepoškozených jedinců, průměry jakékoliv jejich charakteristiky se budou lišit. Cílem statistického testu je zjistit, zda se skupiny liší víc, než kdyby to byl jen důsledek náhody.
Výsledek graficky
ANOVA (ANalysis Of VAriance) Mám více než dvě skupiny (třeba kontrolu, stravu obohacenou vitaminem A, a stravu obohacenou vitaminem C). Nebo mám faktorů víc – louka kosená/nekosená, hnojená/nehnojená ve všech kombinacích (tzv. faktoriální uspořádání)
V grafické formě Tady něco nehraje - zřejmě jsme se dopustili chyby druhého druhu [a tváříme se, že to nevadí]. Tukey zřetelně není ideální, ale nikdo vás za něj moc nezkritizuje
Regrese Jak závisí druhová bohatost (počet druhů na m2) na pH půdy. (Předpokládám, že jedna proměnná je závislá – druhová bohatost, a jedna nezávislá, pH.) Dnes často prediktor a odpověď, neimplikuje kauzalitu. Pokud jsou obě proměnné stejnocenné, užiji korelaci (třeba korelace Pb a Cd ve vzorcích vody.)
Jednoduchá lineární regrese
Kontingenční tabulky Do tropů jsme poslali 40 lidí, z toho 20 bylo očkovaných proti tyfu, a 20 nebylo (ti dostali placebo). Z očkovaných se nakazil tyfem jeden, z neočkovaných pět. Mělo očkování ochranný vliv? [ve skutečnosti bych dělal podobný pokus na krysách] Statistika říká – ochranný vliv se nepodařilo prokázat (měli jsme asi málo opakování)
Experiment a observace Kauzální závislost lze prokázat pouze manipulativním experimentem V době cholerové epidemie v Sudanu přežívali lidé očkovaní proti tetanu statisticky průkazně lépe, než lidé neočkovaní - může mít očkování proti tetanu ochranný vliv?
Zásady experimentátora Musíš mít vždy kontrolu Zásah(y) se liší od kontroly jen tím, efekt čeho chci prokázat (=> pozor na placebo) Pro kontrolu i pro zásah musím mít nezávislá opakování – replikace,ne psaeudoreplikace.
Experimentální uspořádání: 1 – úplně znáhodněné Máme experiment se 4 zásahy (K, Z1, Z2, Z3) a se 4 opakováními pro každý typ zásahu (= pro každou hladinu faktoru) Je-li všech 16 ploch rozmístěno zcela náhodně (completely randomised design), hodnotím jednocestnou analýzou variance
Experimentální uspořádání: 2 – zcela nesprávné Vliv zásahu nelze v datech získaných z tohoto špatného uspořádání odlišit od vlivu umístění v prostoru Pojem pseudoreplikace (pseudoreplication)
Experimentální uspořádání: 3 – znáhodněné bloky Randomised blocks, ale pozor, někdy též jako Completely randomised blocks nebo randomized complete blocks! Náhodný faktor Blok, two-way ANOVA bez interakce. Silnější test, pokud se bloky liší