Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Statistika Pohled z ptačí perspektivy. Statistika z ptačí perspektivy Úloha statistiky v experimentálním výzkumu Explorační metody Konfirmační metody.

Podobné prezentace


Prezentace na téma: "Statistika Pohled z ptačí perspektivy. Statistika z ptačí perspektivy Úloha statistiky v experimentálním výzkumu Explorační metody Konfirmační metody."— Transkript prezentace:

1 Statistika Pohled z ptačí perspektivy

2 Statistika z ptačí perspektivy Úloha statistiky v experimentálním výzkumu Explorační metody Konfirmační metody Sedm + 1 praktických rad

3 Statistika z ptačí perspektivy Úloha statistiky v experimentálním výzkumu Explorační metody Konfirmační metody Sedm + 1 praktických rad

4 Poslání statistiky Statistika nám pomáhá odhalovat zákonitosti v našem stochastickém světě. Umožňuje nám odfiltrovávat či alespoň kvantifikovat vliv náhody na naše experimentální data.

5 Vlivy náhody na naše data 1) Chyba malých čísel, velikost výběrového souboru (vzorku), reprezentativnost vzorku 2) Studovaný jev (například vliv stáří na tělesnou váhu) může být překryt vlivy jiných (z hlediska studovaného jevu náhodných) faktorů

6 Statistické metody Základní rozdělení podle účelu: 1) Explorační metody 2) Konfirmační metody

7 Statistika z ptačí perspektivy Úloha statistiky v experimentálním výzkumu Explorační metody Konfirmační metody Sedm + 1 praktických rad

8 Explorační metody  popisná statistika  zobrazovací metody  shluková analýza  diskriminační analýza  faktorová analýza  a mnohé další

9 Charakteristiky polohy (centrální tendence)  Průměr (aritmetický, geometrický, harmonický) [arithmetic, geometric, harmonic mean]  Medián a kvantily [Median, Quantiles]  Modus  Konfidenční interval [confidence interval] týká se odhadu polohy „středu“ v základním souboru

10 Charakteristiky variability (disperse)  Rozsah (range)  Variance, rozptyl,  2, var [variance]  2 ={  (x i -X) 2 }/n s 2 ={  (x i -X) 2 }/(n-1)  Směrodatná odchylka, s, s.d., SD [standard deviation] s =  var  Variační koeficient, CV [coeficient of variation] CV=s/X

11 Přehled nejčastějších grafů  Koláčový graf (podíly z celku)  Sloupcový graf (průměry pro kategorie)  Krabicový graf (velikosti a rozptyl pro kategorie)  Čárový graf (funkční závislost)  Histogram (četnosti pro kategorie)  XY (XYZ) graf (závislost 2 (3) kvantitativních veličin)

12 Koláčový graf [Pie chart]

13 Sloupcový graf [bar/collumn plot]

14 Krabicový graf [box plot]

15 Čárový graf

16 Histogram [histogram]

17 XY-graf [scatterplot]

18 Další metody explorační statistiky Shluková analýza (cluster analysis) Na základě kombinace hodnot velkého počtu proměnných uspořádá studované objekty do přirozených skupin (hierarchicky nebo nehierarchicky). Použití: Numerická taxonomie

19 Další metody explorační statistiky Diskrimanační analýza Najde kombinaci proměnných na jejichž základě lze rozpoznat příslušnost objektu do některé z předem známých skupin. Cross validizace – leave-one-out metoda Použití: Determinace organismů.

20 Další metody explorační statistiky Faktorová analýza Redukuje větší počet proměnných na menší počet faktorů. Faktory vytvoří kombinací různých proměnných, které na studovaných objektech spolu souvisely. Použití: Vytváření osobnostních dotazníků.

21 Statistika z ptačí perspektivy Úloha statistiky v experimentálním výzkumu Explorační metody Konfirmační metody Sedm + 1 praktických rad

22 Konec 1. dílu

23 Konfirmační metody

24 Principy statistického rozhodování Nulová hypotéza H 0 - pozorovaný jev je dílem náhody, její chybné zamítnutí by bylo závažnější (forézní medicína – justiční vražda, věda – Occamova břitva), chyba prvního druhu [Type I error]  Alternativní hypotéza - chybné zamítnutí alternativní hypotézy = chyba druhého druhu  Síla testu - pravděpodobnost oprávněného přijetí alternativní hypotézy 1-  (přesněji řečeno: pravděpodobnost oprávněného zamítnutí nulové hypotézy)

25 Testové statistiky a jejich využití Testová statistika pro testování shody četností  2  2 =  {(f i - f i teor. ) 2 /f i teor. } Příklad: 152 : 39 : 53 : 6  9 : 3 : 3 : 1 ??? očekávané: 140,6 : 46,9 : 46,9 : 15,6  2 = 11,4 2 /140,6 + (-7,9) 2 /46,9 + 6,1 2 /46,9 + (-9,6 2 /15,6 = 8,97 V tabulkách zjistíme, že 8,97 > 7,81 (kritická hodnota pro = 0,05 při 3 stupních volnosti) Závěr: Nulovou hypotézu (odchylky od očekávaných četností jsou dílem náhody) zamítáme na hladině významnosti 0,05 (t.j. 5%)

26 Statistika v době počítačů Provedení: není třeba znát vzorečky (či dokonce pomocí nich počítat), je třeba vědět jaké testy kdy použít pro danou úlohu. Výstupy: možno získat přímo hodnotu P (pravděpodobnost chyby I. druhu). Dříve: P<0,05 P<0,01 P<0,001 Nyní: P=0,048

27 Testování hypotéz hypotézy o poloze (t-test, ANOVA) hypotézy o rozptylu (F-test) hypotézy o rozložení (Chi 2, Kolmogorov Smirnov) hypotézy o vychýlených hodnotách (Grubbsův test, Dixonův test)

28 Typy proměnných a typy statistických dat Cílové (závislé) [dependent], vysvětlující [independent], rušivé [confoundings] Kvantitativní ×kvalitativní spojité a nespojité kategoriální (nominální) [nominal data], × ordinální binární [binary data]

29 Typy metod v závislosti na charakteru studovaných veličin Příslušný test nám může pomoci odpovědět na otázku, jestli, případně do jaké míry, nám variabilitu v cílové veličině vysvětluje veličina(y) vysvětlující. Cílové (závislé) Vysvětlující kategoriálníspojité kategoriální Kontingenční tabulky ANOVA t-test spojité Logistická regrese Lineární regrese ordinální i spojité Logistická regrese ANCOVA

30 Vztahy kvantitativních veličin Regresní analýza [regression] (závislá a nezávislá proměnná) - regresní koeficient  (směrnice přímky) a P (pravděpodobnost, že  = 0) Korelační analýza [correlation] (nelze říci, která proměnná je závislá, obě jsou navíc zatíženy chybou) -Pearsonův koeficient korelace (r), koeficient determinance (R 2 ) (těsnost vztahu)

31 Význam regresního a korelačního koeficientu nižší korelační koeficient nižší regresní koeficient

32 Neparametrické metody  Wilcoxonův (= Mann-Whitney) test  Mediánový (= znaménkový) test  Kruskal-Wallis ANOVA  Friedman ANOVA  Wald-Wolfowitz test  neparametrická korelace

33 Monte Carlo Metody  Jackknifing  Bootstrapping  Permutační testy

34 Příklad 1 Angličané: 180, 177, 164, 169, 178, 170, 172 Francouzi: 170, 165, 181, 169, 162, 170,171 Jsou Francouzi menší než Angličané? t-test

35 Příklad 2 Novákovi: 180, 175 Horákovi: 168, 169 Dolákovi: 179, 171 Červeňákovi: 175, 159 Zeleňákovi: 190, 177 Existuje souvislost mezi výškou manželů? Korelační analýza

36 Příklad 3 V posluchárně je 80 žen a 70 mužů, z žen jich už 23 usnulo a z mužů jich usnulo 24. Jsou spáči stejně zastoupeni mezi muži i ženami? Kontingenční tabulky

37 Příklad 4 AB: 111, 120, 105, 118, 130, 98 A: 120, 122, 119, 125, 126, 122 B: 110, 129, 99, 160, 111, 102 0: 129, 122,105, 110,120, 101 Má krevní skupina vliv na inteligenci? ANOVA

38 Příklad 5 Novák: ano Praha30 Horák: ne vesnice18 Dolák: ano vesnice60 Červeňák: ne město29 Zeleňák: ano městečko35 Má velikost bydliště vliv na pravděpodobnost infekce? infikován bydliště věk Logistická regrese

39 Statistika z ptačí perspektivy Úloha statistiky v experimentálním výzkumu Explorační metody Konfirmační metody Sedm + 1 praktických rad

40 Několik užitečných rad 1) Na statistiku je třeba myslet včas.  cíl projektu  velikost souboru  homogenita a nezávislost dat  subjektivní vlivy  nenáhodný výběr  možnost ovlivnění  monitorovat možné rušivé proměnné  promyslet způsob záznamu dat

41 Rada 2  garbage in garbage out  přesnost měření  kontrola dat před analýzou - odstranění chyb - rozhodnutí o sporných případech - ošetření odlehlých a vzdálených hodnot  kontrola splnění podmínek testů  transformace (logaritmická, arcsin, odmocninová) Kvalitní data jsou základem úspěchu.

42 Rada 3 Méně (testů) je někdy (skoro vždy) více.  Ze 20 testů vyjde jeden signifikantní na hladině významnosti 0,05 (nutnost Bonferroniho korekce)

43 Rada 4 Jednostranný test je dvakrát citlivější.

44 Příklad jednostranného t-testu

45 Výsledek dvoustranného t-testu 2% P=0,02 - pravděpodobnost, že průměry dvou souborů budou takto vzdáleny jen díky náhodě jsou 2 %. V 1% případů bude průměr v souboru A větší než průměr v souboru B, v 1% případů tomu bude naopak.

46 Výsledek jednostranného t-testu 1% P=0,01 - pravděpodobnost, že průměr v souboru A je větší než průměr v souboru B jen díky náhodě, bude 1%.

47 Rada 5 Pozor na rozdíl mezi základním a výběrovým souborem - jednovýběrové a vícevýběrové testy.

48 Rada 5 Vliv sebepodobnosti na důvěryhodnost. Každý proband dostal 30 dvojic, kdyby neexistoval vliv sebepodobnosti, stejně často by volil jako důvěryhodnědnější podobnou i nepodobnou tvář. nepodobnápodobnánepodobnýpodobný

49 Rada 6 Párový test je silnější než test nepárový. neškodný nebezpečný

50 Rada 7 Pozor na výsledky metaanalýzy.  Šuplíkový efekt páni mají radši blondýnky a oponenti pozitivní výsledky

51 Rada 8 MYSLET, MYSLET, MYSLET !!! (zejména při interpretaci výsledků)

52 Statistické programy (velmi neúplný seznam) BMDP STATISTICA, STATGRAPHICS SYSTAT, SAS, SIGMASTAT, SPSS NTSYS S+, R+ StatXact, TREEPT

53 Statistická literatura (pro nematematiky) Statistika pro zdravotníky, Kubánková, Hendl Metody matematické statistiky, Reisenauer Obecná genetika, Nečásek (Biometrika) (Statistika pro biologické a lékařské vědy, Havránek) (Statistické metody, Anděl) Biometry, Sokal, Rohl Biostatistika, Lepš Biostatistika, Zvára Biostatistics A methodology for the health sciences Fisher, van Belle

54 Rada 9 Líná huba holý neštěstí (Statistici to umí přeci jenom lépe...)


Stáhnout ppt "Statistika Pohled z ptačí perspektivy. Statistika z ptačí perspektivy Úloha statistiky v experimentálním výzkumu Explorační metody Konfirmační metody."

Podobné prezentace


Reklamy Google