Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Biostatistika http://www.prf.jcu.cz/biostat-data.xls.

Podobné prezentace


Prezentace na téma: "Biostatistika http://www.prf.jcu.cz/biostat-data.xls."— Transkript prezentace:

1 Biostatistika

2 Statistika Citáty o statistice
Statistika je věda o přesném nakládání s nepřesnými čísly Známe tři druhy lži: úmyslnou, neúmyslnou a statistiku Statistika nuda je, má však cenné údaje...

3

4 Co je to biostatistika V podstatě neexistuje jako samostatný obor. Užíváním toho slova naznačujeme, že se jedná o aplikaci statistických metod na řešení biologických problémů. [a biologická data mají svoje specifika]

5 A co je tedy statistika? (v laické mluvě) Uspořádaný soubor dat: statistika střel na bránu, statistika úrazů v jednotlivých krajích (v odborné mluvě) Věda, co s těmi daty budeme dělat - (matematická) statistika jako věda V rámci statistiky - nějaká hodnota, kterou z čísel získáme, která nám nějak “syntetizuje” vlastnosti daných čísel

6 Cíle statistiky (1) Popisná statistika - zpřehlednit soubor dat, “kondenzovat” informaci z mnoha čísel do menšího počtu parametrů nebo do grafu

7 Srovnej Průměrný počet bodů byl 74,5, přičemž minimum bylo 28 a maximum 100.

8 Čím méně čísel získám tím je výsledek přehlednější a jednodušší
ale tím je také větší ztráta informace (z průměru, ale ani z histogramu už nikdy nedohledám, kolik měl František K., ani kolik byla všechna čísla) - umění najít vhodnou míru, kdy je výsledek ještě přehledný, a přitom neztratil vypovídací schopnost

9 Díky ztrátě informace lze statistikou krásně lhát

10 A pomocí grafů ještě lépe:

11

12

13 Poučení: když vám bude někdo říkat, o kolik procent se věci zlepšily, vždy se ptejte, z jakého základu se procenta počítala.

14 Cíle statistiky (2) Interferenční statistika - Statistika výběrových šetření Některé soubory jsou moc velké [nebo potenciálně nekonečné] - všechny jejich členy nejsem schopen zkontrolovat Co mohu říci o tom, jak dopadnou volby v celé republice, když se zeptám 1000 lidí? Co mohu říci o obsahu Cd v krvi divokých husí v ČR, když se mi podaří odebrat krev deseti?

15 V biologii jde běžně o interferenční statistiku
Nechci dělat závěry o svých deseti krysách na kterých jsem dělal pokus, ale na základě těch deseti chci něco říci o všech pokusech, které by byly prováděny stejným způsobem Jestliže dělám nějaký výzkum, měl by být reprodukovatelný (srov. Journal of Irreproducible Research) – tj. chci mít určitou „záruku“, že pokus dopadne obdobně i příště.

16 “Statisticky lze dokázat vše”
…zvláště lidem, kteří statistice nerozumění “Je statisticky dokázáno, že vdovy žijí déle, než jejich manželé.” Do grafů lze dát cokoliv, a grafy pak vypadají velmi sugestivně, zvlášť když jsou doprovozeny “vhodnou” interpretací (data jsou pro ilustraci vymyšlená, ale podle reality)

17 “Lék funguje tím lépe, čím je pocientovi hůře.”

18 “Čápi nosí děti”

19 Důkaz škodlivost fluorizace (údaje z jednotlivých států USA)
Nikakragua by patřila někam sem

20 Závislost počtu vražd (Vraždy) na počtu mrazových dní (Mráz) v jednotlivých státech USA
Výsledky regresní analýzy počtu vražd na obyvatel v roce 1976 (Vraždy) v jednotlivých státech USA v závislosti na průměrném počtu mrazových dní v hlavním městě daného státu v letech (Mráz). P<0.01

21 Základní soubor (Population) a Náhodný výběr (Random sample)
Sampling; Sampling design Náhodný výběr - každé individuum musí mít stejnou pravděpodobnost, že bude vybráno, nezávislou na tom, zda bude vybráno individuum jiné Tabulky a generátory (pseudo)náhodných čísel

22 Základní soubor (Population) a Náhodný výběr (Random sample)
Téměř filosofická otázka - co je to náhoda A co je to pravděpodobnost V statistice budeme (tady v té základní) užívat tzv. apriorní pravděpodobnost (existuje ještě Bayesovská - aposteriorní)

23 Udělat náhodný výběr není obvykle triviální - v žádném případě to není výběr typických individuí- funguje rozumně v zemědělských pokusech 1 2 3 1 2 3 4 5 6

24 Podstatně složitější je to v přirozených populacích - nefunguje ani individuum nejbližší náhodnému bodu

25 Zoologové – to co chytěj, je pro ně často „náhodný výběr“
No jo, ale pak ve výběru nejsou ti, co jsou příliš šikovní na to, abychom je chytili A taky chybí chcípáci, co jsou celou dobu schovaní

26 Typy (nejen biologických) dat
Poměrná (poměrová) stupnice - Ratio scale Intervalová stupnice - Interval scale Ordinální stupnice - Ordinal scale Nominální stupnice (kategoriální data) - Nominal scale Cirkulární stupnice Circular scale 270 90 180

27 Azimut kmene s nálezem lišejníků [stupně]:
5, 10, 5, 350, 350, 355 => průměr = 180 Čas, kdy houkal sýček: 22:00, 23:00, 24:00, 1:00, 1:00, 2:00 => průměr je krátce po poledni Pozor – průměr pro data na cirkulární škále může existovat, ale počítá se trochu jinak (viz Mackův poster před počítačovnou 1)

28 Typy (nejen biologických) dat
Poměrná (poměrová) stupnice - Ratio scale Intervalová stupnice - Interval scale Ordinální stupnice - Ordinal scale Nominální stupnice (kategoriální data) - Nominal scale Cirkulární stupnice Circular scale 270 90 180

29 Základní statistické chartakteristiky
Většinou značíme N-velikost základního souboru, n - velikost výběru řeckými písmeny se obvykle značí charakteristiky základního souboru, latinkou charakteristiky výběru Charakteristiky polohy: Průměry, medián a modus Průměry jsou definovány pro kvantitativní data (tj. na poměrové a intervalové stupnici)

30 Aritmetický průměr základního souboru výběru

31 Medián [lze užít i pro data na ordinální stupnici]
Definován tak, že polovina hodnot leží pod, a polovina nad mediánem (v nekonečně velkých souborech - pravděpodobnost, že náhodná hodnota leží nad i pod mediánem je 0,5). V souborech o sudém počtu členů je obvykle za medián považovaná hodnota v půli intervalu mezi dvěma prostředními hodnotami.

32 Horní a dolní kvartil Nad horním 1/4 pozorování, pod dolním 1/4 pozorování (a obdobně pravděpodobnosti v nekonečně velkých souborech)

33 Rozlišuj mínění průměru a mediánu
Příklad - platy ve dvou podnicích

34 Modus - nejčastěji se vyskytující hodnota - u spojitých dat “vrchol” histogramu četností – přesněji: lokální maximum křivky hustoty pravděpodobnosti [může být víc než jeden]

35

36 Míry variability 1. Rozsah (Range) rozdíl mezi minimem a maximem
2. Mezikvartilové rozpětí 3. Variance a směrodatná odchylka

37 Variance - průměrná hodnota druhé mocniny (čtverce) odchylky od průměru
základního souboru - odhav variance na základě výběru n-1 = df = degrees of freedom = počet stupňů volnosti

38 Směrodatná odchylka (sx, často také s. d. , S. D
Směrodatná odchylka (sx, často také s.d., S.D. - standard deviation) je odmocnina z variance

39 Porovnej variabilitu váhy slona a mravence
Buď použiji varianci nebo směrodatnou odchylku logaritmovaných dat, nebo variační koeficient CV (coefficient of variation) Obojí má smysl jen pro data na poměrové stupnici

40 Charakteristiky konečného souboru spočteme přesně
Charakteristiky (nekonečně velkého) základního souboru odhadujeme na základě výběru První úkol: odhad parametrů na základě výběru – odhad je nutně zatížen nějakou chybou

41 Střední chyba průměru (standard error of mean)
Charakterizuje přesnost výběrového průměru - jaká by byla variabilita průměrů dané velikosti z mnoha nezávislých výběrů variabilita v datech přesnost Zvýšení přesnosti lze dosáhnout zvětšením výběru

42 Grafické sumarizace - histogram četností
Pozor na šíři tříd v histogramu (jak přešně jsme měřili)!

43 Box and whisker (doslova krabice s knírama, obvykle “krabicový” diagram)
Pozor, dnes se box & whisker používá i pro průměr a směrodatnou odchylku apod.

44 Testování hypotéz + Test dobré shody

45 Žádnou hypotézu nemohu dokázat
Proto formuluji nulovou hypotézu (H0), a tím, že ji vyvrátím, dokazuji její opak. Alternativní hypotéza H1 nebo HA je tedy negací nulové hypotézy Nulovou hypotézu formuluji já, jako biolog - proto musí být nulová hypotéza taková, aby její vyvrácení bylo zajímavé

46 Chyby v rozhodnutí V případě, že data jsou náhodná (což je v biologii prakticky vždy) musím počítat s tím, že učiním chybné rozhodnutí - statistika zná chybu prvního a druhého druhu (Type I error, Type II error), které jsou nevyhnutelnou součástí našeho rozhodování Kromě toho samozřejmě můžeme udělat ještě chybu tím, že něco nesprávně spočítáme, ale to už (teoreticky) není nevyhnutelné

47 Kuchařka testování hypotéz
1. Formuluji nulovou hypotézu 2. Zvolím hladinu významnosti a tak dostanu kritickou hodnotu (z nějakých tabulek) 3. Z dat spočtu testovací kriterium 4. Když je hodnota testovacího kriteria větší než hodnota kritická, zamítám nulovou hypotézu

48 2 test (test dobré shody)
Příklad - křížím hrachy: očekávám F1: F2: Mám 80 potomků - očekávám 60:20, dostávám 70:10 Je to jen náhodná variabilita, nebo zde Mendelovské poměry nefungují?

49 1. Zamítnutí nulové hypotézy o poměru 3:1 je biologicky zajímavé
1. Zamítnutí nulové hypotézy o poměru 3:1 je biologicky zajímavé. Statisticky bych mohl obdobně testovat nulovou hypotézu o poměru 4,2371:1, ale její zamítnutí nám nic biologicky zajímavého nepřinese. 2. Nulová hypotéza bude formálně: pravděpodobnost vzniku dominantního fenotypu je 0,75 (v nekonečně velkém souboru potenciálních potomků jsou poměry fenotypů 3:1)

50 Výpočet f - absolutní frekvence, tj. počty nezávislých pozorování
DF=1 (počet kategorií - 1 pro apriorně danou hypotézu), kritická hodnota = 3,84 Hodnota testového kriteria > kritická hodnota, zamítám nulovou hypotézu - říkám, že poměry v F2 se statisticky průkazně liší od očekávaných 3:1 při  = nebo píšu (2 = 6.66, df=1, P<0.05)

51 Co to jsou kritické hodnoty?
Hustota pravděpodobnosti Když toto je 5%, pak 11,1 je kritická hladina na 5% hladině významnosti (zde je DF=5)

52 Dnes se častěji užívá Můžeme i opačný postup. Spočítali jsme, že chi-kvadrát=14 Plocha “ocásku” = P = 0,014 je dosažená hladina významnosti P je pravděpodobnost, že takto nebo více odlišný výsledek od nulové hypotézy dostaneme jen vlivem náhody, pokud H0 platí.

53 Nulovou hypotézu tedy zamítáme
Pokud se stane něco, co je za předpokladu platnosti nulové hypotézy velmi nepravděpodobné Jak moc nepravděpodobné to musí být? – o tom rozhodneme stanovením α.

54 Srovnej s Bayesovskou statistikou
Na střelnici může být Lepš, nebo Koukupová (biatlonistka). Střílí jeden z nich. Z pěti ran čtyři zásahy. Jaká je likelihood, že střílel Lepš, a jaká, že střílela Koukalová?

55 Obvykle píšeme výsledek je průkazný při  = 0.05 -
nebo píšu (2 = 6.66, df=1, P<0.05)

56 Co se může stát - házím korunou H0: Plev=Ppanna=0,5
Skutečnost - koruna je OK, tj. P0=P1=0,5 (ALE TO MY NEVÍME) 100 hodů, dostávám 55:45 Potom 2=(55-50)2/50+(45-50)2/50 = 1.0 < Nemohu zamítnout nulovou hypotézu. Správné rozhodnutí.

57 Co se může stát - házím korunou
Skutečnost - koruna je OK, tj. P0=P1=0,5 (ALE TO MY NEVÍME) 100 hodů, dostávám 60:40 Potom 2=(60-50) 2/50+(40-50) 2/50 = 4.0 > Zamítám nulovou hypotézu na 5%-ní hladině významnosti. Udělal jsem chybu prvního druhu - Type I error (a pověsím nevinnýho). Pravděpodobnost této chyby známe: je to . Hladina významnosti  je tedy podmíněná pravděpodobnost zamítnutí nulové hypotézy za předpokladu, že nulová hypotéza platí.

58 Co se může stát - házím korunou
Skutečnost - koruna je falešná, tj. P0=0,6; P1=0,4 (ALE TO MY NEVÍME) 100 hodů, dostávám 60:40 Potom 2=(60-50) 2/50+(40-50) 2/50 = 4.0 > Zamítám nulovou hypotézu na 5%-ní hladině významnosti. Správné rozhodnutí (a pověsím lumpa).

59 Co se může stát - házím korunou
Skutečnost - koruna je falešná, tj. P0=0,6; P1=0,4 (ALE TO MY NEVÍME) 100 hodů, dostávám 55:45 Potom 2=(55-50)2/50+(45-50)2/50 = 1.0 < Nemohu zamítnout nulovou hypotézu (a osvobodím lumpa). Dopustil jsem se chyby druhého druhu. Její pravděpodobnost označujeme jako  a většinou ji neznáme  je síla testu (power of the test). Obecně platí, že síla testu roste s odchylkou od nulové hypotézy a s počtem pozorování. Protože  neznáme, je správná formulace výsledku: Na základě dat nemůžeme zamítnout nulovou hypotézu. Formulace: Dokázali jsme nulovou hypotézu je nesprávná!

60 Rozhodovací tabulka P, které je výsledkem testu, je tedy pravděpodobnost chyby prvního druhu Při daném počtu pozorování - čím lépe jsem chráněn proti jedné chybě, tím je výsledek náchylnější k druhé chybě. Rozhodnu se, že budu provádět text na 1%ní hladině významnosti - kritická hodnota je potom 6,63

61 Co se může stát - házím korunou
Skutečnost - koruna je OK, tj. P0=P1=0,5 (ALE TO MY NEVÍME) 100 hodů, dostávám 60:40 Potom 2=(60-50) 2/50+(40-50) 2/50 = 4.0 <6,63. Nezamítám nulovou hypotézu na 1%-ní hladině významnosti. - OK, nepověsil jsem nevinnýho.

62 Co se může stát - házím korunou
Skutečnost - koruna je falešná, tj. P0=0,6; P1=0,4 (ALE TO MY NEVÍME) 100 hodů, dostávám 60:40 Potom 2=(60-50) 2/50+(40-50) 2/50 = 4.0 < 6,63. Nezamítám nulovou hypotézu na 5%-ní hladině významnosti. Chyba druhého druhu (pouštím lumpa).

63 Pro 20 hodů korunou

64 Síla testu Skutečnost - koruna je falešná, tj. P0=0,55; P1=0,45 (ALE TO MY NEVÍME) - Když to dopadne přesně podle pravděpodobností 100 hodů, dostávám 55:45 Potom 2=(55-50)2/50+(45-50)2/50 = 1.0 < Nezamítám Ch 2 1000 hodů, dostávám 550:450 Potom 2=( )2/500+( )2/500 = > Správně zamítám Skutečnost - koruna je falešná, tj. P0=0,51; P1=0,49 100 hodů, dostávám 51:49 Potom 2=(51-50)2/50+(49-50)2/50 = < Nezamítám Ch 2 1000 hodů, dostávám 510:490 Potom 2=( )2/500+( )2/500 = 0.4 < Nezamítám Ch 2 10000 hodů, dostávám 5100:4900 Potom 2=( )2/5000+( )2/5000 = 4 > Správně zamítám.

65 Síla testu roste S počtem nezávislých pozorování
S velikostí odchylky od nulové hypotézy Se snižující se ochranou proti chybě 1. druhu

66 Příklady použití Štěpné poměry 3:1
9:3:3:1 (počet stupňů volnosti = počet kategorií - 1, pro apriorně danou hypotézu, tedy DF=3)

67 Příklady použití Poměr pohlaví 1:1 Pozor na předpoklady
Nezávislost pozorování! Stejná pravděpodobnost V praxi tedy může být zamítnutí nulové hypotézy důsledkem tří skutečností: 1. Nulová hypotéza neplatí. 2. Nulová hypotéza platí, ale dopustili jsme se chyby 1. druhu. 3. Nulová hypotéza platí, ale my jsme nesplnili všechny předpoklady pro užití testu.

68 A co když nám vyjde hodnota 2 blízká nule (tj
A co když nám vyjde hodnota 2 blízká nule (tj. téměř přesná shoda s nulovou hypotézou)? P>0,99 Nešlo by to považovat za důkaz pravdivosti H0?

69 TOO GOOD TO BE TRUE Mendelova data jsou příliš dobrá

70 Nejčastěji užívané statistické metody
Odpověď je kvantitativní Porovnání dvou vzorků - t-test Porovnání více vzorků - Analýza variance (ANOVA) Funkční závislost hodnoty jedné proměnné na druhé – regrese Odpověď ANO – NE Kontingenční tabulky

71 t-test Liší se počet rozkvetlých květů na bočních větvích u nepoškozených a poškozených jedinců? Pozn.: Každý pokus MUSÍ mít nezávislá opakování a kontrolu

72 Pozor I když náhodně vybereme dvě skupiny po deseti z nepoškozených jedinců, průměry jakékoliv jejich charakteristiky se budou lišit. Cílem statistického testu je zjistit, zda se skupiny liší víc, než kdyby to byl jen důsledek náhody.

73 Výsledek graficky

74 ANOVA (ANalysis Of VAriance)
Mám více než dvě skupiny (třeba kontrolu, stravu obohacenou vitaminem A, a stravu obohacenou vitaminem C). Nebo mám faktorů víc – louka kosená/nekosená, hnojená/nehnojená ve všech kombinacích (tzv. faktoriální uspořádání)

75 V grafické formě Tady něco nehraje - zřejmě jsme se dopustili chyby druhého druhu [a tváříme se, že to nevadí]. Tukey zřetelně není ideální, ale nikdo vás za něj moc nezkritizuje

76 Regrese Jak závisí druhová bohatost (počet druhů na m2) na pH půdy. (Předpokládám, že jedna proměnná je závislá – druhová bohatost, a jedna nezávislá, pH.) Dnes často prediktor a odpověď, neimplikuje kauzalitu. Pokud jsou obě proměnné stejnocenné, užiji korelaci (třeba korelace Pb a Cd ve vzorcích vody.)

77 Jednoduchá lineární regrese

78 Kontingenční tabulky Do tropů jsme poslali 40 lidí, z toho 20 bylo očkovaných proti tyfu, a 20 nebylo (ti dostali placebo). Z očkovaných se nakazil tyfem jeden, z neočkovaných pět. Mělo očkování ochranný vliv? [ve skutečnosti bych dělal podobný pokus na krysách] Statistika říká – ochranný vliv se nepodařilo prokázat (měli jsme asi málo opakování)

79 Experiment a observace
Kauzální závislost lze prokázat pouze manipulativním experimentem V době cholerové epidemie v Sudanu přežívali lidé očkovaní proti tetanu statisticky průkazně lépe, než lidé neočkovaní - může mít očkování proti tetanu ochranný vliv?

80 Zásady experimentátora
Musíš mít vždy kontrolu Zásah(y) se liší od kontroly jen tím, efekt čeho chci prokázat (=> pozor na placebo) Pro kontrolu i pro zásah musím mít nezávislá opakování – replikace,ne psaeudoreplikace.

81 Experimentální uspořádání: 1 – úplně znáhodněné
Máme experiment se 4 zásahy (K, Z1, Z2, Z3) a se 4 opakováními pro každý typ zásahu (= pro každou hladinu faktoru) Je-li všech 16 ploch rozmístěno zcela náhodně (completely randomised design), hodnotím jednocestnou analýzou variance

82 Experimentální uspořádání: 2 – zcela nesprávné
Vliv zásahu nelze v datech získaných z tohoto špatného uspořádání odlišit od vlivu umístění v prostoru Pojem pseudoreplikace (pseudoreplication)

83 Experimentální uspořádání: 3 – znáhodněné bloky
Randomised blocks, ale pozor, někdy též jako Completely randomised blocks nebo randomized complete blocks! Náhodný faktor Blok, two-way ANOVA bez interakce. Silnější test, pokud se bloky liší


Stáhnout ppt "Biostatistika http://www.prf.jcu.cz/biostat-data.xls."

Podobné prezentace


Reklamy Google