Pohled z ptačí perspektivy

Slides:



Advertisements
Podobné prezentace
Statistika.
Advertisements

Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Statistická indukce Teorie odhadu.
Testování neparametrických hypotéz
Ideový závěr Co si mám z přednášky odnést (+ komentáře k užití statistiky v biologii)
Testování statistických hypotéz
Odhady parametrů základního souboru
Cvičení 6 – 25. října 2010 Heteroskedasticita
Analýza variance (Analysis of variance)
Statistika II Michal Jurajda.
4EK416 Ekonometrie Úvod do předmětu – obecné informace
Charakteristiky variability
Popisná statistika - pokračování
Charakteristiky polohy hodnoty znaku - čísla popisující polohu znaku na číselné ose -můžeme zvolit: -Aritmetický průměr -Modus, medián -Harmonický průměr.
Tloušťková struktura porostu
Obsah statistiky Jana Zvárová
Náhodná proměnná Rozdělení.
Analýza dat.
MUDr. Michal Jurajda, PhD. ÚPF LF MU
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
ÚVOD DO STATISTIKY „Jsou tři druhy lží: lži, odsouze-níhodné lži a statistiky“ (Swoboda 1977) Význam statistiky ve vědě Základní pojmy statistiky Statistická.
Odhady parametrů základního souboru. A) GNR B) neznámé r. ZS (přesné parametry) : ,   VS (odhady parametrů): x, s x.
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Charakteristiky variability
Lineární regrese.
Biostatistika 6. přednáška
Biostatistika 7. přednáška
- Pojmy - SPSS Statistické zpracování kvantitativních šetření.
Test dobré shody Fisherův přesný test McNemar test
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Statistické výpočty v MATLABu
Popisná statistika III
Popisné statistiky. Výskyt strupovitosti se zdá být ve vztahu s obsahem některých chemických prvků “ve slupkách“ hlíz. Některé odrůdy trpí strupovitostí.
MATEMATICKÁ STATISTIKA
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Na co ve výuce statistiky není čas
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
Biostatistika 1. přednáška Aneta Hybšová
PSY717 – statistická analýza dat
RNDr. Monika Pávková Goldbergová
VY_32_INOVACE_21-16 STATISTIKA 2 Další prvky charakteristiky souboru.
Popisná analýza v programu Statistica
1. cvičení
STATISTICKÝ ROZCESTNÍK aneb CO S DATY Martin Sebera.
Základy testování hypotéz
Základy statistiky Základní pojmy. Základy statistiky Statistiku můžeme chápat jako činnost - získávání stat. údajů, jejich zpracování a vyhodnocení jako.
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
INDUKTIVNÍ STATISTIKA
Statistické testování – základní pojmy
Induktivní statistika
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
- váhy jednotlivých studií
Statistika 2.cvičení
Popisná analýza v programu Statistica
Úvod do statistického testování
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
Typy proměnných Kvalitativní/kategorická binární - ano/ne
Neparametrické testy pro porovnání polohy
Úvod do induktivní statistiky
Analýza kardinálních proměnných
Autor: Honnerová Helena
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
Základy popisné statistiky
Testování hypotéz - pojmy
Transkript prezentace:

Pohled z ptačí perspektivy Statistika Pohled z ptačí perspektivy

Statistika z ptačí perspektivy Úloha statistiky v experimentálním výzkumu Explorační metody Konfirmační metody Sedm + 1 praktických rad

Statistika z ptačí perspektivy Úloha statistiky v experimentálním výzkumu Explorační metody Konfirmační metody Sedm + 1 praktických rad

Poslání statistiky Statistika nám pomáhá odhalovat zákonitosti v našem stochastickém světě. Umožňuje nám odfiltrovávat či alespoň kvantifikovat vliv náhody na naše experimentální data.

Vlivy náhody na naše data 1) Chyba malých čísel, velikost výběrového souboru (vzorku), reprezentativnost vzorku 2) Studovaný jev (například vliv stáří na tělesnou váhu) může být překryt vlivy jiných (z hlediska studovaného jevu náhodných) faktorů

Základní rozdělení podle účelu: Statistické metody Základní rozdělení podle účelu: 1) Explorační metody 2) Konfirmační metody

Statistika z ptačí perspektivy Úloha statistiky v experimentálním výzkumu Explorační metody Konfirmační metody Sedm + 1 praktických rad

Explorační metody popisná statistika zobrazovací metody shluková analýza diskriminační analýza faktorová analýza a mnohé další

Charakteristiky polohy (centrální tendence) Průměr (aritmetický, geometrický, harmonický) [arithmetic, geometric, harmonic mean] Medián a kvantily [Median, Quantiles] Modus Konfidenční interval [confidence interval] týká se odhadu polohy „středu“ v základním souboru

Charakteristiky variability (disperse) Rozsah (range) Variance, rozptyl, 2, var [variance] 2={(xi-X)2}/n s2={(xi-X)2}/(n-1) Směrodatná odchylka, s, s.d., SD [standard deviation] s = var Variační koeficient, CV [coeficient of variation] CV=s/X

Přehled nejčastějších grafů Koláčový graf (podíly z celku) Sloupcový graf (průměry pro kategorie) Krabicový graf (velikosti a rozptyl pro kategorie) Čárový graf (funkční závislost) Histogram (četnosti pro kategorie) XY (XYZ) graf (závislost 2 (3) kvantitativních veličin)

Koláčový graf [Pie chart]

Sloupcový graf [bar/collumn plot]

Krabicový graf [box plot]

Čárový graf

Histogram [histogram]

XY-graf [scatterplot]

Další metody explorační statistiky Shluková analýza (cluster analysis) Na základě kombinace hodnot velkého počtu proměnných uspořádá studované objekty do přirozených skupin (hierarchicky nebo nehierarchicky). Použití: Numerická taxonomie

Další metody explorační statistiky Diskrimanační analýza Najde kombinaci proměnných na jejichž základě lze rozpoznat příslušnost objektu do některé z předem známých skupin. Cross validizace – leave-one-out metoda Použití: Determinace organismů.

Další metody explorační statistiky Faktorová analýza Redukuje větší počet proměnných na menší počet faktorů. Faktory vytvoří kombinací různých proměnných, které na studovaných objektech spolu souvisely. Použití: Vytváření osobnostních dotazníků.

Statistika z ptačí perspektivy Úloha statistiky v experimentálním výzkumu Explorační metody Konfirmační metody Sedm + 1 praktických rad

Konec 1. dílu

Konfirmační metody

Principy statistického rozhodování Nulová hypotéza H0- pozorovaný jev je dílem náhody, její chybné zamítnutí by bylo závažnější (forézní medicína – justiční vražda, věda – Occamova břitva), chyba prvního druhu [Type I error]  Alternativní hypotéza - chybné zamítnutí alternativní hypotézy = chyba druhého druhu  Síla testu - pravděpodobnost oprávněného přijetí alternativní hypotézy 1- (přesněji řečeno: pravděpodobnost oprávněného zamítnutí nulové hypotézy)

Testové statistiky a jejich využití Testová statistika pro testování shody četností 2 2 =  {(fi - fiteor.)2/fiteor.} Příklad: 152 : 39 : 53 : 6  9 : 3 : 3 : 1 ??? očekávané: 140,6 : 46,9 : 46,9 : 15,6 2 = 11,42/140,6 + (-7,9)2/46,9 + 6,12/46,9 + (-9,62/15,6 = 8,97 V tabulkách zjistíme, že 8,97 > 7,81 (kritická hodnota pro = 0,05 při 3 stupních volnosti) Závěr: Nulovou hypotézu (odchylky od očekávaných četností jsou dílem náhody) zamítáme na hladině významnosti 0,05 (t.j. 5%)

Statistika v době počítačů Provedení: není třeba znát vzorečky (či dokonce pomocí nich počítat), je třeba vědět jaké testy kdy použít pro danou úlohu. Výstupy: možno získat přímo hodnotu P (pravděpodobnost chyby I. druhu). Dříve: P<0,05 P<0,01 P<0,001 Nyní: P=0,048

Testování hypotéz hypotézy o poloze (t-test, ANOVA) hypotézy o rozptylu (F-test) hypotézy o rozložení (Chi2, Kolmogorov Smirnov) hypotézy o vychýlených hodnotách (Grubbsův test, Dixonův test)

Typy proměnných a typy statistických dat Cílové (závislé) [dependent], vysvětlující [independent], rušivé [confoundings] Kvantitativní ×kvalitativní spojité a nespojité kategoriální (nominální) [nominal data], × ordinální binární [binary data]

Typy metod v závislosti na charakteru studovaných veličin Cílové (závislé) Vysvětlující kategoriální spojité Kontingenční tabulky ANOVA t-test Logistická regrese Lineární regrese ordinální i spojité ANCOVA Příslušný test nám může pomoci odpovědět na otázku, jestli, případně do jaké míry, nám variabilitu v cílové veličině vysvětluje veličina(y) vysvětlující.

Vztahy kvantitativních veličin Regresní analýza [regression] (závislá a nezávislá proměnná) - regresní koeficient  (směrnice přímky) a P (pravděpodobnost, že  = 0) Korelační analýza [correlation] (nelze říci, která proměnná je závislá, obě jsou navíc zatíženy chybou) -Pearsonův koeficient korelace (r), koeficient determinance (R2) (těsnost vztahu)

Význam regresního a korelačního koeficientu nižší korelační koeficient nižší regresní koeficient

Neparametrické metody Wilcoxonův (= Mann-Whitney) test Mediánový (= znaménkový) test Kruskal-Wallis ANOVA Friedman ANOVA Wald-Wolfowitz test neparametrická korelace

Monte Carlo Metody Jackknifing Bootstrapping Permutační testy

Příklad 1 Angličané: 180, 177, 164, 169, 178, 170, 172 Francouzi: 170, 165, 181, 169, 162, 170,171 Jsou Francouzi menší než Angličané? t-test

Příklad 2 Novákovi: 180, 175 Horákovi: 168, 169 Dolákovi: 179, 171 Červeňákovi: 175, 159 Zeleňákovi: 190, 177 Existuje souvislost mezi výškou manželů? Korelační analýza

Příklad 3 V posluchárně je 80 žen a 70 mužů, z žen jich už 23 usnulo a z mužů jich usnulo 24. Jsou spáči stejně zastoupeni mezi muži i ženami? Kontingenční tabulky

Příklad 4 AB: 111, 120, 105, 118, 130, 98 A: 120, 122, 119, 125, 126, 122 B: 110, 129, 99, 160, 111, 102 0: 129, 122,105, 110,120, 101 Má krevní skupina vliv na inteligenci? ANOVA

Příklad 5 Novák: ano Praha 30 Horák: ne vesnice 18 infikován bydliště věk Novák: ano Praha 30 Horák: ne vesnice 18 Dolák: ano vesnice 60 Červeňák: ne město 29 Zeleňák: ano městečko 35 Má velikost bydliště vliv na pravděpodobnost infekce? Logistická regrese

Statistika z ptačí perspektivy Úloha statistiky v experimentálním výzkumu Explorační metody Konfirmační metody Sedm + 1 praktických rad

Několik užitečných rad 1) Na statistiku je třeba myslet včas. cíl projektu velikost souboru homogenita a nezávislost dat subjektivní vlivy nenáhodný výběr možnost ovlivnění monitorovat možné rušivé proměnné promyslet způsob záznamu dat

Rada 2 Kvalitní data jsou základem úspěchu. garbage in garbage out přesnost měření kontrola dat před analýzou - odstranění chyb - rozhodnutí o sporných případech - ošetření odlehlých a vzdálených hodnot kontrola splnění podmínek testů transformace (logaritmická, arcsin, odmocninová)

Méně (testů) je někdy (skoro vždy) více. Rada 3 Méně (testů) je někdy (skoro vždy) více. Ze 20 testů vyjde jeden signifikantní na hladině významnosti 0,05 (nutnost Bonferroniho korekce)

Jednostranný test je dvakrát citlivější. Rada 4 Jednostranný test je dvakrát citlivější.

Příklad jednostranného t-testu

Výsledek dvoustranného t-testu 2% P=0,02 - pravděpodobnost, že průměry dvou souborů budou takto vzdáleny jen díky náhodě jsou 2 %. V 1% případů bude průměr v souboru A větší než průměr v souboru B, v 1% případů tomu bude naopak.

Výsledek jednostranného t-testu 1% P=0,01 - pravděpodobnost, že průměr v souboru A je větší než průměr v souboru B jen díky náhodě, bude 1%.

Rada 5 Pozor na rozdíl mezi základním a výběrovým souborem - jednovýběrové a vícevýběrové testy.

Rada 5 Vliv sebepodobnosti na důvěryhodnost. Každý proband dostal 30 dvojic, kdyby neexistoval vliv sebepodobnosti, stejně často by volil jako důvěryhodnědnější podobnou i nepodobnou tvář. nepodobná podobná nepodobný podobný

Rada 6 Párový test je silnější než test nepárový. neškodný 1 2 3 4 5 6 7 nebezpečný

Pozor na výsledky metaanalýzy. Rada 7 Pozor na výsledky metaanalýzy. Šuplíkový efekt páni mají radši blondýnky a oponenti pozitivní výsledky

(zejména při interpretaci výsledků) Rada 8 MYSLET, MYSLET, MYSLET !!! (zejména při interpretaci výsledků)

(velmi neúplný seznam) Statistické programy (velmi neúplný seznam) BMDP STATISTICA, STATGRAPHICS SYSTAT, SAS, SIGMASTAT, SPSS NTSYS S+ , R+ StatXact, TREEPT

Statistická literatura (pro nematematiky) Statistika pro zdravotníky, Kubánková, Hendl Metody matematické statistiky, Reisenauer Obecná genetika, Nečásek (Biometrika) (Statistika pro biologické a lékařské vědy, Havránek) (Statistické metody, Anděl) Biometry, Sokal, Rohl Biostatistika, Lepš Biostatistika, Zvára Biostatistics A methodology for the health sciences Fisher, van Belle

Líná huba holý neštěstí Rada 9 Líná huba holý neštěstí (Statistici to umí přeci jenom lépe...)