Ideový závěr Co si mám z přednášky odnést (+ komentáře k užití statistiky v biologii)

Slides:



Advertisements
Podobné prezentace
Testování statistických hypotéz
Advertisements

Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Úvod do analýzy rozptylu
Neparametrické metody
Testování parametrických hypotéz
Testování neparametrických hypotéz
Testování hypotéz Distribuce náhodných proměnných
Testování statistických hypotéz
Power analysis aneb Co to vlastně znamená P0.05 (Podle Scheiner & Gurevitch 2001: Desing and analysis of ecological experiments.
Monte Carlo permutační testy & Postupný výběr
F-test a dvouvýběrový t-test (oba testy předpokládají normalitu dat)
Chováme králíčky Liší se tato tři králičí plemena hmotností?
Cvičení 6 – 25. října 2010 Heteroskedasticita
Analýza variance (Analysis of variance)
Statistika II Michal Jurajda.
Diskrétní rozdělení a jejich použití
1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec.
Náhodná proměnná Rozdělení.
Testování hypotéz vymezení důležitých pojmů
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Jak správně interpretovat ukazatele způsobilosti a výkonnosti
ANOVA (s použitím materiálů Petra Šmilauera)
Inference jako statistický proces 1
Kontingenční tabulky Závislost dvou kvalitativních proměnných.
Lineární regrese.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Zásady experimentální práce (především v biologii)
Účel procedury: První a závazný krok jakékoli seriozní komparativní studie. Umožňuje vyloučit možnost, že distribuce studovaného znaku (vlastnosti, vzorce.
STATISTIKA přednáška 1 Martin Sebera, FSpS MU, Sázíte-li ve Sportce, je to hazard. Sázíte-li se, že vám v kartách přijdou tři postupky po sobě,
Lineární regrese.
Lineární regresní analýza
Závislost dvou kvantitativních proměnných
Další spojitá rozdělení pravděpodobnosti
Analýza variance (ANOVA).
Odhad metodou maximální věrohodnost
Práce s výsledky statistických studií
Pohled z ptačí perspektivy
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Absolvované přednášky. Banálnost přednášky Pseudoreplikace Přehledová tabulka úvodní přednáška, úplný začátek, průměr rozptyl popisná statistika, asi.
MATEMATICKÁ STATISTIKA
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
8. Kontingenční tabulky a χ2 test
Normální rozdělení a ověření normality dat
Biostatistika 8. přednáška
Normální rozdělení. U 65 náhodně vybraných živě narozených dětí byla zkoumána jejich porodní hmotnost [g] a délka [cm].
PSY717 – statistická analýza dat
STATISTICKÝ ROZCESTNÍK aneb CO S DATY Martin Sebera.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Sledujeme (např.): Chceme prokázat: závisí plat na dosaženém vzdělání? závisí plat na dosaženém vzdělání? je u všech čtyř strojů délka výlisků srov- natelná.
Princip testování hypotéz,  2 testy. Příklad. V dané populaci nejsme schopni v daném okamžiku zjistit počet samců a samic. Předpokládá se (= je teoreticky.
POZNÁMKA: Pokud chcete změnit obrázek na tomto snímku, vyberte obrázek a odstraňte ho. Potom klikněte na ikonu Obrázek v zástupném textu a vložte vlastní.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Homogenita meteorologických pozorování
Statistické testování – základní pojmy
Testování hypotéz párový test
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
Induktivní statistika
Proč statistika ? Dva důvody Popis Inference
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Parciální korelace Regresní analýza
Neparametrické testy pro porovnání polohy
příklad: hody hrací kostkou
T-testy, neparametrické metody a analýza rozptylu (lekce 5-6)
Lineární regrese.
7. Kontingenční tabulky a χ2 test
Základy statistiky.
Náhodné výběry a jejich zpracování
Testování hypotéz - pojmy
Transkript prezentace:

Ideový závěr Co si mám z přednášky odnést (+ komentáře k užití statistiky v biologii)

Co je můj základní soubor? Já z něj provádím náhodný výběr Je můj výběr opravdu náhodný? Jaká je jeho vypovídací schopnost vzhledem k základnímu souboru Jsou moje opakování opravdu nezávislá? (A co pseudoreplikace?) Experiment a observační studie

Asi nejdůležitější poučení Než začneš dělat experiment, nebo sbírat data, měl bys (aspoň zhruba) vědět, jak je vyhodnotíš [nebo by to alespoň měl vědět školitel] Je užitečné odhadnout, jak mnoho pozorování potřebuji, abych měl šanci dostat průkazné výsledky (na to potřebuju ale mít představu o velikosti možného efektu, a variabilitě dat)

Další důležité ponaučení Nezamítnutí nulové hypotézy není důkazem, že nulová hypotéza platí (pokud neudělám rozumný rozbor síly testu, ale i pak je třeba být opatrný) Proto je třeba si uvědomit, jaká je asymetrie mezi zamítnutím a nezamítnutím nulové hypotézy Tato asymetrie ale vede k fenomenu „publication bias“ (co je to metaanalýza?)

Každá metoda má nějaké předpoklady ale ty jsou v reálu zcela splněny jen velmi zřídka Důležité je umět odhadnout, kdy je narušení natolik velké, že činí test nespolehlivým Testování předpokladů: je diskutabilní přístup - i test předpokladů má určitou sílu - a ta roste s počtem pozorování, ale robustnost metod (hlavně vůči narušení normality) roste také s počtem pozorování - lepší je se podívat na graf, než formální test (ale recenzent ho někdy chce)

Když už test dělám, potom Normální rozdělení mají mít v GLM reziduály (jak v ANOVě, tak v regresi) Zásadně špatně je tedy např. vzít Y v regresi, a zkoušet, jestli má normální rozdělení. Příslušné testy jsou součástí daných procedur ve Statistice

Co si od užití statistiky slibuji Explorační vs. konfirmační analýza dat Výsledky nejsou jen pro mě, ale také (často hlavně) pro čtenáře - já vidím, že se hnojené a nehnojené plochy liší, čtenář je odkázán na výsledek testu ve článku. (Užívám tedy často statistiku jako formální podepření svých závěrů.) Na statistiku lze také pohlížet jako na „ochranu“ před naší tendencí interpretovat výsledky tak, jak se nám líbí – podíváme se tedy, jestli daný výsledek nemohl vzniknout čistě náhodou (jak je to pravděpodobné)

Často provádím pokus (nebo sbírám observační data) a „vím“, že test má vyjít průkazně Nebo spíše, mám „odkoukanou“ závislost v terénu, ale potřebuji ji prokázat „tvrdými“ daty Neprůkazný výsledek se pak těžko interpretuje – je nutné si uvědomit, co je chyba II druhu, a co znamená nezamítnutí H 0. – Power analysis

Potřebuju silný test Pro ten potřebuju mnoho nezávislých pozorování Často konflikt mezi realističností a potřebami statistiky - „ideální“ experimentálni design by někdy ústil i do konfliktu s etikou, popř. zákonem

Co si od užití statistiky slibuji Často testujeme absurdní nulové hypotézy (prostě P<0,01 ve článku dobře vypadá, i když nulová hypotéza, že přidání NPK na louku nezvýší produkci je dost nesmyslná) V těchto případech si uvědomte, že test je vlastně takový rituál, čtenáře ale zajímá hlavně změna hodnoty parametru (tj. produkce se zvýšila o xx g/m 2 )

Nebezpečí slova „výzmnamný“ Významně odchylný od H 0 (=significant) znamená pouze, že platnost nulové hypotézy je velmi nepravděpodobná Neříká to nic o biologické významnosti Síla testu – když mám mnoho pozorování, tak mám velmi vysokou sílou testu, prokážu i naprosté drobnosti (případ automatického sběru dat, GIS)

Když o statistice píšu v článku (diplomce) Je podstatně lepší: Skupina krmená preparátem měla v průměru játra o 7 g lehčí, než skupina kontrolní (t=3,15, df=25, P<0,01) NEŽ: Zamítli jsme nulovou hypotézu, že váha jater u kontrolní a preparátem krmené skupiny jsou stejné.

Když o statistice píšu v článku (diplomce) Uvádím, kterou metodu jsem použil, nikoliv, kterou proceduru v programu Statistica. TYPICKY: V programu Statistica počítám Jednoduchou regresi pomocí modulu Multiple regression. Nicméně do diplomky píšu: Data jsem vyhodnotil pomocí jednoduché regrese.

Nezapomínejte na df Zvláště v ANOVě. Nezapomeňte, že F má dvoje stupně volnosti (čitatele [effect df, někdy též numerator df] a jmenovatele [error df, někdy též denominator df]). Zvlášť error df jsou důležité, podle nich se pozná, jestli jste ANOVu počítali správně.

Vysvětlující proměnná/é Vysvětlovaná proměnná Metoda Kvantitativní Regrese KategoriálníKvantitativníANOVA Kategoriální Kontingenční tabulky (ale i vztah dvou kat. proměnných) KvantitativníKategoriálníLogistická regrese Základní metody

Tyto metody mají většinou Neparametrické protějšky Ty jsou nečastěji založeny na pořadí (rank tests) Nebo jsou dnes moderní permutační (randomizační) testy

Vztah dvou kvantitativních pr. Korelace Vysvětlující je směs kvantit. a kvalit. Proměnných, odpověď je kvantit ANCOVA (obecné lineární modely) Shoda frekvence očekávaných četností s teorií Chi-kvadrát test dobré shody Řada popisných charakteristik Další metody

Co jsme neprobrali Power analysis Složitější ANOVy Mnohorozměrné metody Zobecněné lineární modely Jackknife a bootstrap Bayesovskou statistiku A řadu dalších metod

Snaž se najít vhodnou metodu pro svoje výsledky A nikoliv vždy napasovat svoje výsledky na metody, které jsme zde probrali Domnívat se, že po tomto kursu je člověk schopen zanalyzovat veškerá data je jako věřit, že po kursu první pomoci jsem schopen odoperovat slepé střevo