Randomizační a Monte Carlo metody

Slides:



Advertisements
Podobné prezentace
Testování statistických hypotéz
Advertisements

Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Úvod do analýzy rozptylu
Testování parametrických hypotéz
Neparametrické metody a analýza rozptylu (lekce 3-7)
Ideový závěr Co si mám z přednášky odnést (+ komentáře k užití statistiky v biologii)
Testování statistických hypotéz
Monte Carlo permutační testy & Postupný výběr
Chováme králíčky Liší se tato tři králičí plemena hmotností?
Cvičení 6 – 25. října 2010 Heteroskedasticita
Statistika II Michal Jurajda.
Diskrétní rozdělení a jejich použití
t-rozdělení, jeho použití
Získávání informací Získání informací o reálném systému
1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec.
Testování hypotéz (ordinální data)
Obecný postup při testování souborů
Testování hypotéz přednáška.
Tloušťková struktura porostu
Testování hypotéz vymezení důležitých pojmů
Fakulty informatiky a statistiky
také Gaussovo rozdělení (normal or Gaussian distribution)
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Řízení a supervize v sociálních a zdravotnických organizacích
Odhady parametrů základního souboru. A) GNR B) neznámé r. ZS (přesné parametry) : ,   VS (odhady parametrů): x, s x.
Kontingenční tabulky Závislost dvou kvalitativních proměnných.
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Účel procedury: První a závazný krok jakékoli seriozní komparativní studie. Umožňuje vyloučit možnost, že distribuce studovaného znaku (vlastnosti, vzorce.
Lineární regrese.
Lineární regresní analýza
Biostatistika 6. přednáška
Další spojitá rozdělení pravděpodobnosti
Analýza variance (ANOVA).
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Princip maximální entropie
Pohled z ptačí perspektivy
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Normální rozdělení a ověření normality dat
Statistická významnost a její problémy
Biostatistika 8. přednáška
Normální rozdělení. U 65 náhodně vybraných živě narozených dětí byla zkoumána jejich porodní hmotnost [g] a délka [cm].
Korelace.
PSY717 – statistická analýza dat
1. cvičení
Analýza variance (ANOVA). ANOVA slouží k porovnávání středních hodnot 2 a více náhodných proměnných. Tam, kde se používal dvouvýběrový t-test, je možno.
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Základní informace o předmětu1. Přednášející: RNDr. Martin Hála, CSc. katedra matematiky, B105, Další informace a soubory ke stažení.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Jednovýběrový a párový t - test
Homogenita meteorologických pozorování
Statistické testování – základní pojmy
Testování hypotéz párový test
Neparametrické testy parametrické a neparametrické testy
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
Induktivní statistika
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Úvod do statistického testování
PSY252 Statistická analýza dat v psychologii II Seminář 9
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Homogenita meteorologických pozorování
Neparametrické testy pro porovnání polohy
příklad: hody hrací kostkou
ANALÝZA A KLASIFIKACE DAT
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
Náhodné výběry a jejich zpracování
Testování hypotéz - pojmy
Transkript prezentace:

Randomizační a Monte Carlo metody

Aneb: Kterak dělat statistiku bez znalostí statistiky

Ono to jde?

Jo!!!

Ignác II Spravedlivý

Tři možné přístupy: Klasické statistické testy Exaktní testy Randomizační a Monte Carlo testy

Princip metody: Vyzkoušet, jak by vypadala data v případě platnosti nulové hypotézy.

Jak na to? Formulovat hypotézu (model), kterou chceme testovat. Vymyslet, čím (v kterém parametru – testová statistika) by se experimentální data získaná v případě platnosti tohoto modelu lišila od obdobných dat náhodně vygenerovaných. Vypočítat příslušnou hodnotu parametru (testové statistiky) pro experimentální data.

Pokračování Vygenerovat několikrát (mnohokrát) soubory náhodných dat a pro každý takový soubor vypočítat příslušnou hodnotu parametru. Seřadit získané hodnoty parametru podle velikosti a zjistit, kolikátá v pořadí je hodnota získaná z experimentálních dat. Rozhodnout, zda umístění experimentální hodnoty na n-tém místě může být dílem náhody.

Příklad 1 Liší se průměrná inteligence žen nakažených parazitem Toxoplasma gondii a žen nenakažených?

Inteligence mladých žen měřená pomocí Cattellova dotazníku 0,048 F-test (rozptyl) 0,076 U-test 0,023 Wald-Wolfowitz >0,1 Kolmogorov-Smirnov Signifikance (p) 8,88 Nakažené 8,30 Zdravé inteligence

Experimentální data

Hypotéza: Ženy nakažené T. gondii jsou v průměru inteligentnější než ženy nenakažené. Z toho vyplývá, že rozdíl v průměrné inteligenci souboru nakažených a souboru nenakažených žen (delta IQ) je větší, než kdybychom do dvou stejně velkých souborů rozdělili ženy bez ohledu na jejich nakaženost prvokem T. gondii.

Náhodná data

Výsledky permutačního testu: Z celkového počtu 4999 vygenerovaných souborů dat vykazovalo ve srovnání s experimentálním souborem delta IQ : 64 (1,22%) větší 0 (0%) stejné 4935 (98,7%) menší

Závěr Existuje zhruba 1,22% pravděpodobnost, že nakažené ženy nejsou inteligentnější než nenakažené, a že pozorovaný rozdíl v našem experimentálním souboru je pouze dílem náhody. Nulovou hypotézu tedy zamítáme na hladině pravděpodobnosti p=0,0122.

Příklad 2 Existuje u žen korelace mezi vzrůstem Affectothymie a délkou nákazy parazitem T. gondii?

Hodnoty affectothymie a hladina specifických protilátek u nakažených žen atd 8 7 Černá Modráková 64 5 Zeleňáková 32 2 Dolňáková 16 10 Horáková Novotná 6 Nováková Titr protilátek Affektothymie Jméno

Korelace mezi titrem protilátek a mírou affectothymie

Hodnoty affectothymie a hladina specifických protilátek u nakažených žen 1080 224 56 80 16 160 384 Součin2 912 320 64 96 Součin1 8 32 Titr1 Σ součinů 7 Černá Modráková 5 Zeleňáková 2 Dolňáková 10 Horáková Novotná 6 Nováková Titr2 Affektothymie Jméno

Výsledky permutačního testu: Z celkového počtu 19 999 vygenerovaných souborů dat vykazovalo ve srovnání s experimentálním souborem S(xi yi): 337 (1,69%) menší 3 (0,015%) stejnou 19 660 (98,3%) větší

Závěr Existuje zhruba 1,7% pravděpodobnost, že mezi affectothymií a hladinou specifických protilátek není u žen nakažených T. gondii negativní korelace, a že tedy závislost pozorovaná v našem experimentálním souboru je pouze dílem náhody. Nulovou hypotézu tedy zamítáme na hladině pravděpodobnosti p=0,017.

Příklad 3 Vykazují příbuzné kmeny parazitického prvoka Trichomonas vaginalis podobnou míru virulence?

Fylogenetický strom kmenů trichomonád Čísla v závorkách ukazují stupeň virulence

Hypotéza: Míra virulence je podobná u příbuzných kmenů. To znamená, že suma rozdílů virulencí sousedících kmenů (skupin kmenů) (vira - virb) pro všechny uzly fylogenetického stromu trichomonád bude menší, než obdobná suma rozdílů pro stejný strom s náhodně proházenými hodnotami virulence.

Proházené hodnoty virulence

Výsledky permutačního testu: Z celkového počtu 4 999 vygenerovaných souborů dat vykazovalo ve srovnání s experimentálním souborem (vira - virb): 101 (2,02%) menší 1 (0,02%) stejnou 4 898 (98,0%) větší

Závěr Existuje zhruba 2 % pravděpodobnost, že mezi vzájemnou příbuzností a podobností co do virulence (patogenních projevů) není žádný vztah, a že tedy závislost pozorovaná v našem experimentálním souboru je pouze dílem náhody. Nulovou hypotézu tedy zamítáme na hladině pravděpodobnosti p=0,02.

Další důležité aplikace randomizačních a Monte Carlo testů Podobnost dvou matic - Mantelův test (koreluje druhové složeni jezer s jejich vzdáleností?) prostorové a časové vztahy mezi jedinci či mezi událostmi testy s vyloučením určitého procenta odlehlých hodnot (truncated)

Prostorové vztahy

Další důležité aplikace randomizačních a Monte Carlo testů Podobnost dvou matic (Mantelův test) prostorové a časové vztahy mezi jedinci či mezi událostmi testy s vyloučením určitého procenta odlehlých hodnot (truncated)

Testy s vyloučením určitého procenta odlehlých hodnot Toxoplasma-nakažené ženy byly lehčí než nenakažené S dobou od nákazy hmotnost ženy klesala „nenakažené“ nakažené

Typy metod Monte Carlo Permutační testy jackknifing x bootstrapping

Výhody randomizačních a Monte Carlo testů Jsou bližší uvažování nematematiků. Nevyžadují znalost statistiky. Většinou mají menší požadavky na charakter dat (normalita atd.) než klasické metody (včetně metod neparametrických). Síla těchto testů (pravděpodobnost oprávněného zamítnutí nulové hypotézy) bývá zpravidla větší, než u neparametrických testů. Jsou flexibilnější, lze je “ušít na míru” konkrétního problému.

Nevýhody randomicačních a Monte Carlo testů Většinou vyžadují myšlení, někdy i kreativitu. Většinou vyžadují rychlý (raději velmi rychlý) počítač. Často nejsou k dispozici vhodné programy, někdy nutno i programovat.

Programy pro randomizační a Monte Carlo metody SPSS Exact Tests StatXact, LogXact NPSTAT (freeware) RT, Resampling Treept Mathematica, Maple

Literatura Manly, Randomization, bootstrap and Monte Carlo methods in biology Chapman & Hall 1997 Good, Resampling methods, A practical guide to data analysis Birkhäuser 1999 Manuály k jednotlivým programům

A s chutí do toho!!! Nebojte se pavouků a statistiky. Ať se bojí oni Vás!