Jak statistika dokazuje závislost Karel Zvára katedra pravděpodobnosti a matematické statistiky MFF UK Karel.Zvara@mff.cuni.cz http://www.karlin.mff.cuni.cz/~zvara Jak statistika dokazuje závislost (Pardubice 040916)
teorie pravděpodobnosti matematická statistika - pravděpodobnost šestky na hrací kostce TP: =1/6 (symetrie) MS: na základě pokusu odhadnout pst nebo rozhodnout o tvrzení, např. =1/6 např. 15 šestek z 60 hodů: bodový odhad je 0,25, 95% intervalový odhad (0,147; 0,379) Jak statistika dokazuje závislost (Pardubice 040916)
Jak statistika dokazuje závislost (Pardubice 040916) příklad 1 Šestnáctileté slečny nosí náušnice častěji než stejně staří hoši náušnice bez náušnic celkem hoši 2 8 10 dívky 3 11 21 Jak statistika dokazuje závislost (Pardubice 040916)
Jak statistika dokazuje závislost (Pardubice 040916) příklad 2 IQ souvisí se školním prospěchem Jak statistika dokazuje závislost (Pardubice 040916)
princip statistického usuzování (indukce) na základě dat (výběru) soudíme o všech možných datech (populaci) populaci si zpravidla jen představujeme výběr je podmnožinou populace, má být reprezentativní nejlépe to zaručí náhodný výběr rozsah výběru ~ přesnost odhadu Jak statistika dokazuje závislost (Pardubice 040916)
možné populace (náušnice) všechny šestnáctileté dívky (hoši) u nás všechny šestnáctileté studentky (studenti) u nás všechny šestnáctileté studentky (studenti) gymnázií u nás všechny šestnáctileté studentky (studenti) dané třídy dané školy Jak statistika dokazuje závislost (Pardubice 040916)
Jak statistika dokazuje závislost (Pardubice 040916) možné výběry náhodný výběr ze seznamu všech náhodný výběr školy, tam náhodný výběr ze seznamu všech (riziko nereprezentativnosti) informace u účastnících celostátního kola ... olympiády (riziko nereprezentativnosti) Jak statistika dokazuje závislost (Pardubice 040916)
Jak statistika dokazuje závislost (Pardubice 040916) populace vers. výběr populace výběr pravděpodobnost relativní četnost populační průměr výběrový průměr parametr statistika platnost nulové hypotézy H0 rozhodnutí o nulové hypotéze neznámé, pevné známé, náhodné Jak statistika dokazuje závislost (Pardubice 040916)
statistické rozhodování H0 – tvrzení o populaci, jehož popřením něco dokážeme, (nulová) hypotéza H1 – alternativa, zpravidla (vědecky) dokazované tvrzení o populaci nechceme příliš často něco falešně dokázat (prokázat) předem zvolíme pravděpodobnost takové chyby (hladinu , zpravidla =5%) Jak statistika dokazuje závislost (Pardubice 040916)
Jak statistika dokazuje závislost (Pardubice 040916) schéma rozhodování rozhodnutí H0 platí H0 neplatí zamítnout H0 chyba 1. druhu (pst ) správné rozhodnutí (pst … síla testu) nezamítnout H0 (přijmout) správné rozhodnutí chyba 2. druhu Jak statistika dokazuje závislost (Pardubice 040916)
Jak statistika dokazuje závislost (Pardubice 040916) příklad s náušnicemi d – pst náušnic u dívek h – pst náušnic u hochů H1: d > h H0: d = h (pro d h bychom dostali stejná pravidla rozhodování) Jak statistika dokazuje závislost (Pardubice 040916)
Jak statistika dokazuje závislost (Pardubice 040916) náušnice bez náušnic celkem hoši a b a+b dívky c d c+d a+c b+d n hypotéze H0 svědčí, když podíly osob s náušnicemi jsou podobné: OR – poměr šancí (odds ratio) tj. Jak statistika dokazuje závislost (Pardubice 040916)
Jak statistika dokazuje závislost (Pardubice 040916) náušnice bez náušnic celkem hoši a b a+b dívky c d c+d a+c b+d n alternativě svědčí, když podíl hochů s náušnicemi je podst. menší než u dívek: tj. Jak statistika dokazuje závislost (Pardubice 040916)
Jak statistika dokazuje závislost (Pardubice 040916) úvaha nutno zachovat hladinu nechť hypotéza platí fixujme počty hochů, dívek, náušnic (marginální četnosti) pa – pst, že a hochů má náušnice (při pevných marginálních četnostech jsou b, c, d volbou a určeny také) výpočet pravděpodobnosti pa kombinatorickou úvahou Jak statistika dokazuje závislost (Pardubice 040916)
kombinatorický výpočet kolika způsoby lze rozdělit a+c náušnic mezi n osob: kolik z nich dá a náušnic u hochů pa = počet příznivých/počet možných (klasická pravděpodobnost) Jak statistika dokazuje závislost (Pardubice 040916)
Jak statistika dokazuje závislost (Pardubice 040916) původní tabulka (a = 2) + - hoši 2 8 10 dívky 3 11 21 p2 = 0,02105 ln OR = –2,367 Jak statistika dokazuje závislost (Pardubice 040916)
Jak statistika dokazuje závislost (Pardubice 040916) tabulka a = 1 + - hoši 2 8 10 dívky 3 11 21 p2 = 0,02105 ln OR = –2,367 1 9 p1 = 0,00156 9 2 ln OR = –3,701 Jak statistika dokazuje závislost (Pardubice 040916)
Jak statistika dokazuje závislost (Pardubice 040916) tabulka a = 0 + - hoši 2 8 10 dívky 3 11 21 p2 = 0,02105 ln OR = –2,367 10 p = 0,00003 10 1 ln OR = – Jak statistika dokazuje závislost (Pardubice 040916)
Jak statistika dokazuje závislost (Pardubice 040916) tabulka a = 10 + - hoši 2 8 10 dívky 3 11 21 p2 = 0,02105 ln OR = –2,367 10 p = 0,00000 11 ln OR = Jak statistika dokazuje závislost (Pardubice 040916)
Jak statistika dokazuje závislost (Pardubice 040916) tabulka a = 9 + - hoši 2 8 10 dívky 3 11 21 p2 = 0,02105 ln OR = –2,367 9 1 p = 0,0031 1 10 ln OR = 4,500 Jak statistika dokazuje závislost (Pardubice 040916)
Jak statistika dokazuje závislost (Pardubice 040916) tabulka a = 8 + - hoši 2 8 10 dívky 3 11 21 p2 = 0,02105 ln OR = –2,367 8 2 p = 0,00702 2 9 ln OR = 2,890 Jak statistika dokazuje závislost (Pardubice 040916)
Jak statistika dokazuje závislost (Pardubice 040916) tabulka a = 7 + - hoši 2 8 10 dívky 3 11 21 p2 = 0,02105 ln OR = –2,367 7 3 p = 0,05614 3 8 ln OR = 1,828 Jak statistika dokazuje závislost (Pardubice 040916)
shrnutí (Fisherův test) p2+p1+p0=0,02264 a pa OR ln OR 0,00003 0,000 - 1 0,00156 0,025 -3,701 2 0,02105 0,094 -2,367 3 0,11227 0,245 -1,410 7 0,05614 2,625 1,828 8 0,00702 6,222 2,890 9 0,00031 18,000 4,500 10 0,00000 90,000 na 5% hladině zamítáme H0 p2+p1+p0+p8+p9+p10=0,02997 zamítli bychom pro oboustrannou alternativu Jak statistika dokazuje závislost (Pardubice 040916)
Jak statistika dokazuje závislost (Pardubice 040916) poznámky pro jakou populaci lze zjištění zobecnit? jiný postup – chí-kvadrát test příklad s IQ – zcela jiný postup, neboť data jsou ve spojitém měřítku, použije se regrese Jak statistika dokazuje závislost (Pardubice 040916)
Jak statistika dokazuje závislost (Pardubice 040916) chí-kvadrát test porovnává empirické četnosti nij (skutečně nastaly) s teoretickými četnostmi oij (očekávané na H0) počítá statistiku kde Jak statistika dokazuje závislost (Pardubice 040916)
Jak statistika dokazuje závislost (Pardubice 040916) hodnocení H0 zamítá, je-li 2 příliš velké vlastnosti 2 asymptoticky, použitelné, pokud oij dost velké (aspoň 5) jinak Yatesova korekce zmenšením abs. hodnoty každého čitatele před umocněním o 0,5 Jak statistika dokazuje závislost (Pardubice 040916)
Jak statistika dokazuje závislost (Pardubice 040916) náušnice Jak statistika dokazuje závislost (Pardubice 040916)