Statistická indukce v praxi Martina Litschmannová, Adéla Vrtková
Obsah lekce Opakování Základní pojmy spojené se statistickou indukcí Intervalové odhady vs. testování hypotéz Statistická indukce v praxi (analýza jednoho výběru a srovnání dvou výběrů) Ukazují výsledky analýzy životnosti monitorů vyrobených novou technologií na statisticky významně lepší hodnoty životnosti než odpovídá technologii původní? (příklad z minulého workshopu) Jak moc máme věřit předvolebním průzkumům? (analýza aktuálních výsledků předvolebního průzkumu) Liší se statisticky významně pokles kapacit baterií výrobců A a B?
Jaké pojmy je nutno znát? Statistická indukce úplné šetření výběrové šetření Exploratorní (popisná) statistika Exploratorní (popisná) statistika = ZÁKLADNÍ SOUBOR REPREZENTATIVNÍ výběr statistická jednotka statistické znaky – údaje, které u statistických znaků sledujeme (např. váha, výška, IQ, …)
Rozdíl mezi výběrovými charakteristikami a populačními parametry Parametry populace (obvykle pro jejich značení používáme symboly řecké abecedy) jsou konstanty. Charakteristiky výběru (obvykle značíme latinkou) jsou obvykle různé – v závislosti na pořízeném výběru. Jsou to náhodné veličiny. Základní soubor (populace) stř. hodnota 𝐸 𝑋 , resp. 𝜇 medián 𝑥0,5 rozptyl 𝐷 𝑋 , resp. 𝜎 2 směr. odchylka 𝜎 pravděpodobnost (parametr binom. rozdělení) 𝜋 Výběrový soubor (výběr) (výběrový) průměr 𝑋 výběrový medián 𝑋 0,5 výběrový S 2 výběrová směr. odchylka 𝑆 rel. četnost 𝑝
Základní metody statistické indukce Intervalové odhady (angl. confidence intervals) – umožňují odhadnout nejistotu v odhadu parametru náhodné veličiny Testování hypotéz (angl. hypothesis testing) - umožňuje posoudit, zda experimentálně získaná data nepopírají předpoklad, který jsme před provedením testování učinili. Používáme, chceme-li ověřit platnost předem definované hypotézy (s předem danou hladinou významností). Používáme, chceme-li určit velikost parametru NV, resp. velikost efektu (rozdílu, resp. poměru parametrů dvou NV). zdroj: http://www.nedarc.org/
𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎=2𝑚𝑖𝑛 𝐹 0 𝑥 𝑂𝐵𝑆 ;1− 𝐹 0 𝑥 𝑂𝐵𝑆 Jak postupovat při testování parametrických hypotéz? (čistý test významnosti) Formulujeme nulovou a alternativní hypotézu. Zvolíme tzv. testovou statistiku, tj. výběr. charakteristiku, jejíž rozdělení závisí na test. parametru 𝜃. (Rozdělení test. statistiky za předpokladu platnosti 𝐻 0 nazýváme nulové rozdělení.) Ověříme předpoklady testu! Výpočet pozorované hodnoty 𝑥 𝑂𝐵𝑆 testové statistiky 𝑇 𝑿 . Výpočet 𝑝 − ℎ𝑜𝑑𝑛𝑜𝑡𝑦 (angl. „𝑝− 𝑣𝑎𝑙𝑢𝑒“). Rozhodnutí o výsledku testu: Tvar alternativní hypotézy 𝐻 𝐴 𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎 𝜃< 𝜃 0 𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎= 𝐹 0 𝑥 𝑂𝐵𝑆 𝜃> 𝜃 0 𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎= 1−𝐹 0 𝑥 𝑂𝐵𝑆 𝜃≠ 𝜃 0 𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎=2𝑚𝑖𝑛 𝐹 0 𝑥 𝑂𝐵𝑆 ;1− 𝐹 0 𝑥 𝑂𝐵𝑆 𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎 Rozhodnutí 𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎<𝛼 Na hladině významnosti 𝛼 zamítáme 𝐻0 ve prospěch 𝐻𝐴. 𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎≥𝛼 Na hladině významnosti 𝛼 nelze 𝐻0 zamítnout.
Výpočet pozorované hodnoty: 𝑥 𝑂𝐵𝑆 =𝑇 𝒙 | 𝐻 0 = 1265−1200 300 100 =2,17 Standardním výrobním způsobem lze vyrobit monitory se střední životnosti 1200 hodin. Novou technologií, kterou navrhuje vývojové centrum bylo zkušebně vyrobeno 100 obrazovek, jejichž průměrná životnost byla 1265 hodin a směrodatná odchylka 300 hodin. Jde o kvalitnější technologii, nejde pouze o náhodný rozdíl? (Předpokládejte, že životnost monitorů má normální rozdělení.) Řešení: 𝐻 0 : 𝜇=1200, 𝐻 𝐴 : 𝜇>1200 𝑇 𝑿 = 𝑋 −𝜇 𝑆 𝑛 → 𝑡 𝑛−1 (pro výběr testové statistiky viz http://am-nas.vsb.cz/lit40/PRASTA/Statisticka_indukce.pdf) Ověření předpokladů testu: Normalitu životností monitorů předpokládáme na základě zadání úlohy. Výpočet pozorované hodnoty: 𝑥 𝑂𝐵𝑆 =𝑇 𝒙 | 𝐻 0 = 1265−1200 300 100 =2,17 Výpočet p-hodnoty: 𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎=1−𝐹 2,17 =0,016 Na hladině významnosti 5% zamítáme nulovou hypotézu (𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎=0,016, t-test). Tj. životnost monitorů se vlivem použití nové technologie navýšila statisticky významně.
Standardním výrobním způsobem lze vyrobit monitory se střední životnosti 1200 hodin. Novou technologií, kterou navrhuje vývojové centrum bylo zkušebně vyrobeno 100 monitorů, jimž byla zjištěna životnost a údaje o ní byly zapsány do souboru monitory.csv. Jde o kvalitnější technologii? Řešení – viz skript workshop09.R: Preprocesing dat: identifikace odlehlých pozorování a jejich zpracování V datech byla identifikována 2 odlehlá pozorování (302.3 mAh a 2057.8 mAh) a z dalšího zpracování byla z důvodu …….. vyloučena.
Standardním výrobním způsobem lze vyrobit monitory se střední životnosti 1200 hodin. Novou technologií, kterou navrhuje vývojové centrum bylo zkušebně vyrobeno 100 monitorů, jimž byla zjištěna životnost a údaje o ní byly zapsány do souboru monitory.csv. Jde o kvalitnější technologii? Řešení – viz skript workshop09.R: Explorační analýza: vizualizace dat (boxplot, histogram), výpočet výběrových charakteristik, posouzení normality
Řešení – viz skript workshop09.R: Standardním výrobním způsobem lze vyrobit monitory se střední životnosti 1200 hodin. Novou technologií, kterou navrhuje vývojové centrum bylo zkušebně vyrobeno 100 monitorů, jimž byla zjištěna životnost a údaje o ní byly zapsány do souboru monitory.csv. Jde o kvalitnější technologii? Řešení – viz skript workshop09.R: Statistická indukce (nezapomínat na volbu hladiny významnosti a ověření předpokladů): Intervalový odhad střední životnosti monitorů vyrobených novou technologii Na základě výběrového šetření očekáváme průměrnou životnost monitorů vyrobených novou technologií cca 1270 h. Budeme odhadovat se spolehlivostí 95 %, tj. na 5% hladině významnosti. Jak odhadnout střední hodnotu? (viz http://am-nas.vsb.cz/lit40/PRASTA/Statisticka_indukce.pdf) Normalitu dat předpokládáme na základě výsledků explorační analýzy. Se spolehlivostí 95 % lze průměrnou životnost monitorů vyrobených novou technologií očekávat v rozmezí 1220 h až 1320 h.
Řešení – viz skript workshop09.R: Standardním výrobním způsobem lze vyrobit monitory se střední životnosti 1200 hodin. Novou technologií, kterou navrhuje vývojové centrum bylo zkušebně vyrobeno 100 monitorů, jimž byla zjištěna životnost a údaje o ní byly zapsány do souboru monitory.csv. Jde o kvalitnější technologii? Řešení – viz skript workshop09.R: Statistická indukce (nezapomínat na volbu hladiny významnosti a ověření předpokladů): Ověření hypotézy, zda průměrná životnost testovaných monitorů statisticky významně převyšuje 1200 h. Budeme testovat na 5% hladině významnosti. 𝐻 0 : 𝜇=1200, 𝐻 𝐴 : 𝜇>1200 Jak vybrat správný test? (viz http://am-nas.vsb.cz/lit40/PRASTA/Statisticka_indukce.pdf) t-test, resp. wilcoxnův test (neparametrický test střední hodnoty) Normalitu dat předpokládáme na základě výsledků explorační analýzy ⇒ t-test. Na hladině významnosti 5 % zamítáme 𝐻 0 (𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎=0,006, t-test). Tj. průměrná životnost monitorů vyrobených novou technologii statisticky významně převyšuje 1200 h.
Standardním výrobním způsobem lze vyrobit monitory se střední životnosti 1200 hodin. Novou technologií, kterou navrhuje vývojové centrum bylo zkušebně vyrobeno 100 monitorů, jimž byla zjištěna životnost a údaje o ní byly zapsány do souboru monitory.csv. Jde o kvalitnější technologii? Řešení – viz skript workshop09.R (shrnutí postupu): Preprocesing dat: identifikace odlehlých pozorování a jejich zpracování Explorační analýza: vizualizace dat (boxplot, histogram), výpočet výběrových charakteristik, posouzení normality Statistická indukce (nezapomínat na volbu hladiny významnosti a ověření předpokladů): Intervalový odhad střední životnosti monitorů vyrobených novou technologii Ověření hypotézy, zda průměrná životnost testovaných monitorů statisticky významně převyšuje 1200 h.
Jak moc důvěřovat předvolebním průzkumům Jak moc důvěřovat předvolebním průzkumům? (aneb příspěvek ke kritickému myšlení) Zdroj: http://zpravy.idnes.cz/pruzkum-verejneho-mineni- volby-cvvm- dvs/domaci.aspx?c=A170424_172904_domaci_jkk
Jak moc důvěřovat předvolebním průzkumům Jak moc důvěřovat předvolebním průzkumům? (aneb příspěvek ke kritickému myšlení) Uveďte, jaké jsou hlavní nedostatky grafu prezentujícího výsledky předvolebního průzkumu.
Jak moc důvěřovat předvolebním průzkumům Jak moc důvěřovat předvolebním průzkumům? (aneb příspěvek ke kritickému myšlení) Opravte titulek k danému grafu (uveden v černém rámečku) tak, aby dával smysl.
Jak moc důvěřovat předvolebním průzkumům Jak moc důvěřovat předvolebním průzkumům? (aneb příspěvek ke kritickému myšlení) S jakou přesností byl stanoven bodový odhad volební podpory (%) pro ANO?
Jak moc důvěřovat předvolebním průzkumům Jak moc důvěřovat předvolebním průzkumům? (aneb příspěvek ke kritickému myšlení) S jakou přesností byl stanoven bodový odhad volební podpory (%) pro ČSSD?
Jak moc důvěřovat předvolebním průzkumům Jak moc důvěřovat předvolebním průzkumům? (aneb příspěvek ke kritickému myšlení) „CVVM informace pro volební model získalo mezi 3. a 13. dubnem při osobních rozhovorech se 528 respondenty staršími 18 let.“ Lze určit, kolik respondentů v průzkumu odpovědělo, že by volili Piráty?
Jak moc důvěřovat předvolebním průzkumům Jak moc důvěřovat předvolebním průzkumům? (aneb příspěvek ke kritickému myšlení) Předpokládejme, že volební model byl stanoven na základě odpovědí 298 rozhodnutých voličů. „CVVM informace pro volební model získalo mezi 3. a 13. dubnem při osobních rozhovorech se 528 respondenty staršími 18 let.“ Dále pro zjednodušení uvažujme, že průzkum ukázal na to, že volební účast by byla cca 56,2%. Lze určit, kolik respondentů v průzkumu odpovědělo, že by volili Piráty?
Jak moc důvěřovat předvolebním průzkumům Jak moc důvěřovat předvolebním průzkumům? (aneb příspěvek ke kritickému myšlení) Předpokládejme, že volební model byl stanoven na základě odpovědí 298 rozhodnutých voličů. Je možné jednoznačně usuzovat na to, že by respondenti, kteří uvedli, že by volili KDU-ČSL (resp. STAN), volili i koalici KDU-ČSL a STAN?
Jak moc důvěřovat předvolebním průzkumům Jak moc důvěřovat předvolebním průzkumům? (aneb příspěvek ke kritickému myšlení) Předpokládejme, že volební model byl stanoven na základě odpovědí 298 rozhodnutých voličů. Jaký je váš bodový odhad volebních preferencí koalice KDU-ČSL a STAN? Předpokládejme, že respondenti, kteří uvedli, že by volili KDU-ČSL (resp. STAN), by ve skutečnosti volili koalici KDU-ČSL a STAN. Lze uvádět tvrzení, že „Lidovci s hnutím STAN, kteří půjdou do podzimních voleb v koalici, by podle průzkumu CVVM potřebných 10 procent neměli.“?
Jak moc důvěřovat předvolebním průzkumům Jak moc důvěřovat předvolebním průzkumům? (aneb příspěvek ke kritickému myšlení) Předpokládejme, že volební model byl stanoven na základě odpovědí 298 rozhodnutých voličů. Určete 95% intervalový odhad volebních preferencí koalice KDU-ČSL a STAN. Předpokládejme, že respondenti, kteří uvedli, že by volili KDU-ČSL (resp. STAN), by ve skutečnosti volili koalici KDU-ČSL a STAN. Lze uvádět tvrzení, že „Lidovci s hnutím STAN, kteří půjdou do podzimních voleb v koalici, by podle průzkumu CVVM potřebných 10 procent neměli.“?
Jak moc důvěřovat předvolebním průzkumům Jak moc důvěřovat předvolebním průzkumům? (aneb příspěvek ke kritickému myšlení) Předpokládejme, že volební model byl stanoven na základě odpovědí 298 rozhodnutých voličů. S 95% spolehlivostí lze volební preference koalice KDU-ČSL a STAN odhadovat mezi 6,4% a 13,3% (Clopperův – Pearsonův odhad). Lze uvádět tvrzení, že „Lidovci s hnutím STAN, kteří půjdou do podzimních voleb v koalici, by podle průzkumu CVVM potřebných 10 procent neměli.“?
Jak moc důvěřovat předvolebním průzkumům Jak moc důvěřovat předvolebním průzkumům? (aneb příspěvek ke kritickému myšlení) Předpokládejme, že volební model byl stanoven na základě odpovědí 298 rozhodnutých voličů. Ověřte čistým testem významnosti, zda lze tvrdit, že volební preference koalice KDU-ČSL a STAN jsou nižší než 10%. Lze uvádět tvrzení, že „Lidovci s hnutím STAN, kteří půjdou do podzimních voleb v koalici, by podle průzkumu CVVM potřebných 10 procent neměli.“?
Jak moc důvěřovat předvolebním průzkumům Jak moc důvěřovat předvolebním průzkumům? (aneb příspěvek ke kritickému myšlení) Předpokládejme, že volební model byl stanoven na základě odpovědí 298 rozhodnutých voličů. Na hladině významnosti 5% nelze tvrdit, že volební preference koalice KDU-ČSL a STAN jsou nižší než 10% (𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎=0,418, Clopperův – Pearsonův test). Lze uvádět tvrzení, že „Lidovci s hnutím STAN, kteří půjdou do podzimních voleb v koalici, by podle průzkumu CVVM potřebných 10 procent neměli.“?
Jak moc důvěřovat předvolebním průzkumům Jak moc důvěřovat předvolebním průzkumům? (aneb příspěvek ke kritickému myšlení) Předpokládejme, že volební model byl stanoven na základě odpovědí 298 rozhodnutých voličů. Citát z diskuze pod článkem: „U agentury CVVM, má Babiš dlouhodobě největší preference,jiné pruzkumy ukazují i o 5 procent méně,i o ostatních stran jsou rozdíly....náhoda to asi nebude.“ (Zdeněk Bláha, hodnocení příspěvku: 21 + / 1-) Také s příspěvkem souhlasíte?
Jak moc důvěřovat předvolebním průzkumům Jak moc důvěřovat předvolebním průzkumům? (aneb příspěvek ke kritickému myšlení) Předpokládejme, že volební model byl stanoven na základě odpovědí 298 rozhodnutých voličů. Exkluzivní internetový průzkum společnosti SANEP byl proveden ve dnech 6. – 12. dubna 2017 na vybrané skupině 2.407 dotázaných, kteří představují reprezentativní vzorek obyvatel ČR ve věku 18+ let. Průzkum aktuálních volebních (nikoli stranických) preferencí a předpokládaný hypotetický volební model vychází pouze z hlasů 56,2% respondentů, kteří představují vzorek rozhodnutých voličů.“ Zdroj: http://www.sanep.cz/pruzkumy/volebni-preference-duben-2017-publikovano-19-4-2017/
Jak moc důvěřovat předvolebním průzkumům Jak moc důvěřovat předvolebním průzkumům? (aneb příspěvek ke kritickému myšlení) Předpokládejme, že volební model byl stanoven na základě odpovědí 298 rozhodnutých voličů. Předpokládejme, že volební model byl stanoven na základě odpovědí 1353 rozhodnutých voličů. Určete 95% intervalové odhady volební preference ANO jak na základě výsledků získaných CVVM, tak na základě výsledků získaných SANEP. (Srovnejte s údajem o statistické chybě, kterou SANEP ve své analýze uvádí.)
Jak moc důvěřovat předvolebním průzkumům Jak moc důvěřovat předvolebním průzkumům? (aneb příspěvek ke kritickému myšlení) Předpokládejme, že volební model byl stanoven na základě odpovědí 298 rozhodnutých voličů. Předpokládejme, že volební model byl stanoven na základě odpovědí 1353 rozhodnutých voličů. Se spolehlivostí 95 % lze rozdíl mezi volebními preferencemi ANO zjištěnými CVVM a SANEP očekávat mezi -0,2 % a 11,9 %, tj. zjištěné výsledky se statisticky významně neliší (asymptotický interval spolehlivosti). Liší se volební preference ANO zjištěné CVVM a SANEP na hladině významnosti 0,05 statisticky významně?
Jak moc důvěřovat předvolebním průzkumům Jak moc důvěřovat předvolebním průzkumům? (aneb příspěvek ke kritickému myšlení) Předpokládejme, že volební model byl stanoven na základě odpovědí 298 rozhodnutých voličů. Předpokládejme, že volební model byl stanoven na základě odpovědí 1353 rozhodnutých voličů. Na hladině významnosti 5% nelze zamítnout hypotézu o shodě volebních preferencí zjištěných CVVM a SANEP vůči alternativě o tom, že se zjištěné volební preference liší (𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎=0,052, asymptotický test). Liší se volební preference ANO zjištěné CVVM a SANEP na hladině významnosti 0,05 statisticky významně?
V souboru aku2.csv jsou uvedeny naměřené kapacity baterií čtyř výrobců po 5 a po 100 nabíjecích cyklech a vypočtené hodnoty poklesů těchto kapacit. Výrobce A tvrdí, že jeho baterie vykazují nižší pokles kapacit než baterie výrobce C. Ověřte toto tvrzení na hladině významnosti 5%. Řešení – viz skript workshop09.R: Preprocesing dat: vytvoření souboru, v němž jsou údaje pouze o výrobcích A a C + identifikace odlehlých pozorování a jejich zpracování Explorační analýza: vizualizace dat (vícenásobný boxplot, histogramy), výpočet výběrových charakteristik, posouzení normality (QQ grafy), posouzení shody rozptylů Statistická indukce (nezapomínat na volbu hladiny významnosti a ověření předpokladů): Intervalový odhad rozdílu středních poklesů kapacit baterií výrobců A a C. Ověření hypotézy, zda se průměrné poklesy kapacit baterií výrobců A a C statisticky významně liší.
p-hodnota (Shapirův – Wilkův test) Volba testu dle http://am-nas.vsb.cz/lit40/PRASTA/Statisticka_indukce.pdf) Data jsou nezávislá (každý údaj byl změřen na jiné statistické jednotce). Ověření normality (exaktní): 𝐻 0 : Data jsou výběrem z normálního rozdělení. 𝐻 𝐴 : Data nejsou výběrem z normálního rozdělení. ¬𝐻 0 Na hladině významnosti 5% nelze zamítnout předpoklad normality (viz tabulka). Ověření shody rozptylů 𝐻 0 : 𝜎 𝐴 2 = 𝜎 𝐶 2 𝐻 𝐴 : 𝜎 𝐴 2 ≠ 𝜎 𝐶 2 Na hladině významnosti 5% nelze zamítnout hypotézu o shodě rozptylů (𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎=0,054, F test). výrobce p-hodnota (Shapirův – Wilkův test) A 0,923 C 0,271
Na základě ověření předpokladů byl pro analýzu vybrán dvouvýběrový t-test. 𝐻 0 : 𝜇 𝐴 = 𝜇 𝐶 𝐻 𝐴 : 𝜇 𝐴 < 𝜇 𝐶 Na hladině významnosti 5% zamítáme hypotézu o shodě středních poklesů kapacit baterií výrobců A a C vůči alternativě, že baterie výrobce A vykazují menší průměrný pokles kapacit než baterie výrobce C (𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎≪0,001, dvouvýběrový t-test). Baterie výrobce A lze v tomto ohledu označit za statisticky významně kvalitnější než baterie výrobce C. Doplnění bodového a 95% intervalového odhadu 𝜇 𝐴 − 𝜇 𝐶 ≅−55 𝑚𝐴ℎ Průměrný pokles kapacit baterií výrobce C je o cca 55 mAh větší než průměrný pokles kapacit baterií výrobce A. S 95% spolehlivostí lze očekávat, že průměrný pokles kapacit baterií výrobce C je o více než 50 mAh větší než průměrný pokles kapacit baterií výrobce A.
DěkujEME za pozornost!