Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Randomizační a Monte Carlo metody. Aneb: Kterak dělat statistiku bez znalostí statistiky.

Podobné prezentace


Prezentace na téma: "Randomizační a Monte Carlo metody. Aneb: Kterak dělat statistiku bez znalostí statistiky."— Transkript prezentace:

1 Randomizační a Monte Carlo metody

2 Aneb: Kterak dělat statistiku bez znalostí statistiky

3 Ono to jde?

4 Jo!!!

5 Ignác II Spravedlivý

6

7

8

9 Tři možné přístupy: Klasické statistické testy Exaktní testy Randomizační a Monte Carlo testy

10 Princip metody: Vyzkoušet, jak by vypadala data v případě platnosti nulové hypotézy.

11 Jak na to? Formulovat hypotézu (model), kterou chceme testovat. Vymyslet, čím (v kterém parametru – testová statistika) by se experimentální data získaná v případě platnosti tohoto modelu lišila od obdobných dat náhodně vygenerovaných. Vypočítat příslušnou hodnotu parametru (testové statistiky) pro experimentální data.

12 Pokračování Vygenerovat několikrát (mnohokrát) soubory náhodných dat a pro každý takový soubor vypočítat příslušnou hodnotu parametru. Seřadit získané hodnoty parametru podle velikosti a zjistit, kolikátá v pořadí je hodnota získaná z experimentálních dat. Rozhodnout, zda umístění experimentální hodnoty na n-tém místě může být dílem náhody.

13 Příklad 1 Liší se průměrná inteligence žen nakažených parazitem Toxoplasma gondii a žen nenakažených?

14 Inteligence mladých žen měřená pomocí Cattellova dotazníku 0,048F-test (rozptyl) 0,076U-test 0,023Wald-Wolfowitz >0,1Kolmogorov-Smirnov Signifikance (p) 8,88Nakažené 8,30Zdravé inteligence

15 Experimentální data

16 Hypotéza: Ženy nakažené T. gondii jsou v průměru inteligentnější než ženy nenakažené. Z toho vyplývá, že rozdíl v průměrné inteligenci souboru nakažených a souboru nenakažených žen (delta IQ) je větší, než kdybychom do dvou stejně velkých souborů rozdělili ženy bez ohledu na jejich nakaženost prvokem T. gondii.

17 Náhodná data

18 Výsledky permutačního testu: Z celkového počtu 4999 vygenerovaných souborů dat vykazovalo ve srovnání s experimentálním souborem delta IQ : 64 (1,22%) větší 0 (0%) stejné 4935 (98,7%) menší

19 Závěr Existuje zhruba 1,22% pravděpodobnost, že nakažené ženy nejsou inteligentnější než nenakažené, a že pozorovaný rozdíl v našem experimentálním souboru je pouze dílem náhody. Nulovou hypotézu tedy zamítáme na hladině pravděpodobnosti p=0,0122.

20 Příklad 2 Existuje u žen korelace mezi vzrůstem Affectothymie a délkou nákazy parazitem T. gondii?

21 Hodnoty affectothymie a hladina specifických protilátek u nakažených žen atd 87Černá 87Modráková 645Zeleňáková 322Dolňáková 1610Horáková 325Novotná 166Nováková Titr protilátekAffektothymieJméno

22 Korelace mezi titrem protilátek a mírou affectothymie

23 Hodnoty affectothymie a hladina specifických protilátek u nakažených žen Součin Součin Titr1 Σ součinů 327Černá 87Modráková 165Zeleňáková 82Dolňáková 1610Horáková 325Novotná 646Nováková Titr2AffektothymieJméno

24 Výsledky permutačního testu: Z celkového počtu vygenerovaných souborů dat vykazovalo ve srovnání s experimentálním souborem S (xi yi): 337 (1,69%) menší 3 (0,015%) stejnou (98,3%) větší

25 Závěr Existuje zhruba 1,7% pravděpodobnost, že mezi affectothymií a hladinou specifických protilátek není u žen nakažených T. gondii negativní korelace, a že tedy závislost pozorovaná v našem experimentálním souboru je pouze dílem náhody. Nulovou hypotézu tedy zamítáme na hladině pravděpodobnosti p=0,017.

26 Příklad 3 Vykazují příbuzné kmeny parazitického prvoka Trichomonas vaginalis podobnou míru virulence?

27 Fylogenetický strom kmenů trichomonád Čísla v závorkách ukazují stupeň virulence

28 Hypotéza: Míra virulence je podobná u příbuzných kmenů. To znamená, že suma rozdílů virulencí sousedících kmenů (skupin kmenů)  (vir a - vir b ) pro všechny uzly fylogenetického stromu trichomonád bude menší, než obdobná suma rozdílů pro stejný strom s náhodně proházenými hodnotami virulence.

29 Proházené hodnoty virulence

30 Výsledky permutačního testu: Z celkového počtu vygenerovaných souborů dat vykazovalo ve srovnání s experimentálním souborem  (vir a - vir b ): 101 (2,02%) menší 1 (0,02%) stejnou (98,0%) větší

31 Závěr Existuje zhruba 2 % pravděpodobnost, že mezi vzájemnou příbuzností a podobností co do virulence (patogenních projevů) není žádný vztah, a že tedy závislost pozorovaná v našem experimentálním souboru je pouze dílem náhody. Nulovou hypotézu tedy zamítáme na hladině pravděpodobnosti p=0,02.

32 Další důležité aplikace randomizačních a Monte Carlo testů Podobnost dvou matic - Mantelův test (koreluje druhové složeni jezer s jejich vzdáleností?) prostorové a časové vztahy mezi jedinci či mezi událostmi testy s vyloučením určitého procenta odlehlých hodnot (truncated)

33 Prostorové vztahy

34 Další důležité aplikace randomizačních a Monte Carlo testů Podobnost dvou matic (Mantelův test) prostorové a časové vztahy mezi jedinci či mezi událostmi testy s vyloučením určitého procenta odlehlých hodnot (truncated)

35 Testy s vyloučením určitého procenta odlehlých hodnot Toxoplasma-nakažené ženy byly lehčí než nenakažené S dobou od nákazy hmotnost ženy klesala „nenakažené“nakažené

36 Typy metod Monte Carlo Permutační testy jackknifing x bootstrapping

37 Výhody randomizačních a Monte Carlo testů Jsou bližší uvažování nematematiků. Nevyžadují znalost statistiky. Většinou mají menší požadavky na charakter dat (normalita atd.) než klasické metody (včetně metod neparametrických). Síla těchto testů (pravděpodobnost oprávněného zamítnutí nulové hypotézy) bývá zpravidla větší, než u neparametrických testů. Jsou flexibilnější, lze je “ušít na míru” konkrétního problému.

38 Nevýhody randomicačních a Monte Carlo testů Většinou vyžadují myšlení, někdy i kreativitu. Většinou vyžadují rychlý (raději velmi rychlý) počítač. Často nejsou k dispozici vhodné programy, někdy nutno i programovat.

39 Programy pro randomizační a Monte Carlo metody SPSS Exact Tests StatXact, LogXact NPSTAT (freeware) RT, Resampling Treept Mathematica, Maple

40 Literatura Manly, Randomization, bootstrap and Monte Carlo methods in biology Chapman & Hall 1997 Good, Resampling methods, A practical guide to data analysis Birkhäuser 1999 Manuály k jednotlivým programům

41 A s chutí do toho!!! Nebojte se pavouků a statistiky. Ať se bojí oni Vás!


Stáhnout ppt "Randomizační a Monte Carlo metody. Aneb: Kterak dělat statistiku bez znalostí statistiky."

Podobné prezentace


Reklamy Google