Randomizační a Monte Carlo metody
Aneb: Kterak dělat statistiku bez znalostí statistiky
Ono to jde?
Jo!!!
Ignác II Spravedlivý
Tři možné přístupy: Klasické statistické testy Exaktní testy Randomizační a Monte Carlo testy
Princip metody: Vyzkoušet, jak by vypadala data v případě platnosti nulové hypotézy.
Jak na to? Formulovat hypotézu (model), kterou chceme testovat. Vymyslet, čím (v kterém parametru – testová statistika) by se experimentální data získaná v případě platnosti tohoto modelu lišila od obdobných dat náhodně vygenerovaných. Vypočítat příslušnou hodnotu parametru (testové statistiky) pro experimentální data.
Pokračování Vygenerovat několikrát (mnohokrát) soubory náhodných dat a pro každý takový soubor vypočítat příslušnou hodnotu parametru. Seřadit získané hodnoty parametru podle velikosti a zjistit, kolikátá v pořadí je hodnota získaná z experimentálních dat. Rozhodnout, zda umístění experimentální hodnoty na n-tém místě může být dílem náhody.
Příklad 1 Liší se průměrná inteligence žen nakažených parazitem Toxoplasma gondii a žen nenakažených?
Inteligence mladých žen měřená pomocí Cattellova dotazníku 0,048 F-test (rozptyl) 0,076 U-test 0,023 Wald-Wolfowitz >0,1 Kolmogorov-Smirnov Signifikance (p) 8,88 Nakažené 8,30 Zdravé inteligence
Experimentální data
Hypotéza: Ženy nakažené T. gondii jsou v průměru inteligentnější než ženy nenakažené. Z toho vyplývá, že rozdíl v průměrné inteligenci souboru nakažených a souboru nenakažených žen (delta IQ) je větší, než kdybychom do dvou stejně velkých souborů rozdělili ženy bez ohledu na jejich nakaženost prvokem T. gondii.
Náhodná data
Výsledky permutačního testu: Z celkového počtu 4999 vygenerovaných souborů dat vykazovalo ve srovnání s experimentálním souborem delta IQ : 64 (1,22%) větší 0 (0%) stejné 4935 (98,7%) menší
Závěr Existuje zhruba 1,22% pravděpodobnost, že nakažené ženy nejsou inteligentnější než nenakažené, a že pozorovaný rozdíl v našem experimentálním souboru je pouze dílem náhody. Nulovou hypotézu tedy zamítáme na hladině pravděpodobnosti p=0,0122.
Příklad 2 Existuje u žen korelace mezi vzrůstem Affectothymie a délkou nákazy parazitem T. gondii?
Hodnoty affectothymie a hladina specifických protilátek u nakažených žen atd 8 7 Černá Modráková 64 5 Zeleňáková 32 2 Dolňáková 16 10 Horáková Novotná 6 Nováková Titr protilátek Affektothymie Jméno
Korelace mezi titrem protilátek a mírou affectothymie
Hodnoty affectothymie a hladina specifických protilátek u nakažených žen 1080 224 56 80 16 160 384 Součin2 912 320 64 96 Součin1 8 32 Titr1 Σ součinů 7 Černá Modráková 5 Zeleňáková 2 Dolňáková 10 Horáková Novotná 6 Nováková Titr2 Affektothymie Jméno
Výsledky permutačního testu: Z celkového počtu 19 999 vygenerovaných souborů dat vykazovalo ve srovnání s experimentálním souborem S(xi yi): 337 (1,69%) menší 3 (0,015%) stejnou 19 660 (98,3%) větší
Závěr Existuje zhruba 1,7% pravděpodobnost, že mezi affectothymií a hladinou specifických protilátek není u žen nakažených T. gondii negativní korelace, a že tedy závislost pozorovaná v našem experimentálním souboru je pouze dílem náhody. Nulovou hypotézu tedy zamítáme na hladině pravděpodobnosti p=0,017.
Příklad 3 Vykazují příbuzné kmeny parazitického prvoka Trichomonas vaginalis podobnou míru virulence?
Fylogenetický strom kmenů trichomonád Čísla v závorkách ukazují stupeň virulence
Hypotéza: Míra virulence je podobná u příbuzných kmenů. To znamená, že suma rozdílů virulencí sousedících kmenů (skupin kmenů) (vira - virb) pro všechny uzly fylogenetického stromu trichomonád bude menší, než obdobná suma rozdílů pro stejný strom s náhodně proházenými hodnotami virulence.
Proházené hodnoty virulence
Výsledky permutačního testu: Z celkového počtu 4 999 vygenerovaných souborů dat vykazovalo ve srovnání s experimentálním souborem (vira - virb): 101 (2,02%) menší 1 (0,02%) stejnou 4 898 (98,0%) větší
Závěr Existuje zhruba 2 % pravděpodobnost, že mezi vzájemnou příbuzností a podobností co do virulence (patogenních projevů) není žádný vztah, a že tedy závislost pozorovaná v našem experimentálním souboru je pouze dílem náhody. Nulovou hypotézu tedy zamítáme na hladině pravděpodobnosti p=0,02.
Další důležité aplikace randomizačních a Monte Carlo testů Podobnost dvou matic - Mantelův test (koreluje druhové složeni jezer s jejich vzdáleností?) prostorové a časové vztahy mezi jedinci či mezi událostmi testy s vyloučením určitého procenta odlehlých hodnot (truncated)
Prostorové vztahy
Další důležité aplikace randomizačních a Monte Carlo testů Podobnost dvou matic (Mantelův test) prostorové a časové vztahy mezi jedinci či mezi událostmi testy s vyloučením určitého procenta odlehlých hodnot (truncated)
Testy s vyloučením určitého procenta odlehlých hodnot Toxoplasma-nakažené ženy byly lehčí než nenakažené S dobou od nákazy hmotnost ženy klesala „nenakažené“ nakažené
Typy metod Monte Carlo Permutační testy jackknifing x bootstrapping
Výhody randomizačních a Monte Carlo testů Jsou bližší uvažování nematematiků. Nevyžadují znalost statistiky. Většinou mají menší požadavky na charakter dat (normalita atd.) než klasické metody (včetně metod neparametrických). Síla těchto testů (pravděpodobnost oprávněného zamítnutí nulové hypotézy) bývá zpravidla větší, než u neparametrických testů. Jsou flexibilnější, lze je “ušít na míru” konkrétního problému.
Nevýhody randomicačních a Monte Carlo testů Většinou vyžadují myšlení, někdy i kreativitu. Většinou vyžadují rychlý (raději velmi rychlý) počítač. Často nejsou k dispozici vhodné programy, někdy nutno i programovat.
Programy pro randomizační a Monte Carlo metody SPSS Exact Tests StatXact, LogXact NPSTAT (freeware) RT, Resampling Treept Mathematica, Maple
Literatura Manly, Randomization, bootstrap and Monte Carlo methods in biology Chapman & Hall 1997 Good, Resampling methods, A practical guide to data analysis Birkhäuser 1999 Manuály k jednotlivým programům
A s chutí do toho!!! Nebojte se pavouků a statistiky. Ať se bojí oni Vás!