Martina Litschmannová, Adéla Vrtková

Slides:



Advertisements
Podobné prezentace
Číslo projektu CZ.1.07/1.5.00/ Název školy
Advertisements

KÓDOVANIE INFORMÁCIÍ Maroš Malý, 4.C.
Percentá Percentá každý deň a na každom kroku.
NÁZEV: VY_32_INOVACE_05_05_M6_Hanak TÉMA: Dělitelnost
Delavnica za konfiguriranje dostopovnih točk RAČUNALNIŠKA OMREŽJA
ALGORITMIZACE.
Jan Coufal, Julie Šmejkalová, Jiří Tobíšek
Obvod a obsah kruhu Prezentaci Mgr. Jan Kašpara (ZŠ Hejnice) upravila a doplnila Mgr. Eva Kaucká e.
Určitý integrál. Příklad.
Shodné zobrazení, osová souměrnost, středová souměrnost
Opakování na 4. písemnou práci
rtinzartos Napište slova, která obsahují uvedená písmena.
Cvičení Úloha 1: Rozhodněte zda posloupnost znaků v poli délky n tvoří palindrom (slovo, které je stejné při čtení zprava i zleva). Př.: [a,l,e,l,a]
Data Science aneb BigData v praxi
Slovní úlohy pro „autaře“
Emise a absorpce světla
NÁZEV ŠKOLY: Základní škola Hostouň, okres Domažlice,
Problematika spotřebitelských úvěrů
Elektrikcé pole.
Střední odborná škola a Střední odborné učiliště, Hradec Králové, Vocelova 1338, příspěvková organizace Registrační číslo projektu: CZ.1.07/1.5.00/
Dynamická pevnost a životnost Přednášky
Perspektivy budoucnosti lidstva
6. PŘEDNÁŠKA Diagnostické (screeningové) testy v epidemiologii
Základy elektrotechniky
NÁZEV: VY_32_INOVACE_08_12_M9_Hanak TÉMA: Jehlan OBSAH: Objem
Změny skupenství Ing. Jan Havel.
Seminář JČMF Matematika a fyzika ve škole
Test: Mechanické vlastnosti kapalin (1. část)
4.2 Deformace pevného kontinua 4.3 Hydrostatika
A ZÁROVEŇ HNED DOKONALÉ
Tělesa –Pravidelný šestiboký hranol
NÁZEV ŠKOLY: Základní škola Hostouň, okres Domažlice,
8.1.1 Lineární kombinace aritmetických vektorů
Fyzikální veličiny - čas
Číselné soustavy a kódy
Čas a souřadnice Lekce 3 Miroslav Jagelka.
Agregátní trh práce.
Jasnosti hvězd Lekce 10 Miroslav Jagelka.
Název prezentace (DUMu): Jednoduché úročení – řešené příklady
Konstrukce překladačů
DYNAMICKÉ VLASTOSTI ZEMIN A HORNIN
E-projekt: Jak změřit výšku budovy GJŠ
Parametry vedení a stejnosměrná vedení
Martina Litschmannová
Vysoká škola technická a ekonomická v Českých Budějovicích Ústav technicko-technologický Logistika zemního plynu v České republice Autor diplomové práce:
Martina Litschmannová, Adéla Vrtková
ROZDĚLENÍ ÚHLŮ PODLE VELIKOSTI
Rovinný úhel a jeho orientace
Měření optické aktivity 4.1 Úvod (ukázky spekter)
Ohmův zákon Praktické ověření.
T - testy Párový t - test Existuje podezření, že u daného typu auta se přední pneumatiky nesjíždějí stejně. H0: střední hodnota sjetí vpravo (m1) = střední.
Proudy a obvody Náboje v pohybu.
Číselné soustavy a kódy
Práce s nepájivým (kontaktním) polem
Střední odborná škola a Střední odborné učiliště, Hradec Králové, Vocelova 1338, příspěvková organizace Registrační číslo projektu: CZ.1.07/1.5.00/
Máme data – a co dál? (1. část)
NÁZEV: VY_32_INOVACE_06_11_M7_Hanak
Statistická indukce v praxi
NÁZEV: VY_32_INOVACE_08_01_M9_Hanak TÉMA: Soustavy lineárních rovnic
Studená válka.
Výukový materiál zpracovaný v rámci projektu
Ing. Marcela Strakošová
VZNIK ČESKOSLOVENSKA.
Škola ZŠ Masarykova, Masarykova 291, Valašské Meziříčí Autor
PRÁVNÍ ZÁKLADY STÁTU - VLAST
Je obtížnější „dělat“ marketing služby nebo hmotného produktu?
MAPA SVĚTA AFRIKA.
Dvacáté století – vznik Československa
Zakavkazsko.
Osvobození československa (1.)
Transkript prezentace:

Martina Litschmannová, Adéla Vrtková Vícevýběrové testy Martina Litschmannová, Adéla Vrtková

Obsah lekce Opakování Dvouvýběrové testy parametrických hypotéz Liší se statisticky významně pokles kapacit baterií výrobců A a C? Vícevýběrové testy parametrických hypotéz Vícevýběrové testy o shodě rozptylů ANOVA (analýza rozptylu = vícevýběrový test o shodě středních hodnot) Kruskalův – Wallisův test (vícevýběrový test o shodě mediánů)

Dvouvýběrové testy parametrických hypotéz Zdroj: Litschmannová, M., Základní metody statistické indukce, online: http://am-nas.vsb.cz/lit40/PRASTA/Statisticka_indukce.pdf

V souboru aku2.csv jsou uvedeny naměřené kapacity baterií čtyř výrobců po 5 a po 100 nabíjecích cyklech a vypočtené hodnoty poklesů těchto kapacit. Výrobce A tvrdí, že jeho baterie vykazují nižší pokles kapacit než baterie výrobce C. Ověřte toto tvrzení na hladině významnosti 5%. Řešení – viz skript workshop10.R: Preprocesing dat: vytvoření souboru, v němž jsou údaje pouze o výrobcích A a C + identifikace odlehlých pozorování a jejich zpracování Explorační analýza: vizualizace dat (vícenásobný boxplot, histogramy), výpočet výběrových charakteristik, posouzení normality (QQ grafy), posouzení shody rozptylů Statistická indukce (nezapomínat na volbu hladiny významnosti a ověření předpokladů): Intervalový odhad rozdílu středních poklesů kapacit baterií výrobců A a C. Ověření hypotézy, zda se průměrné poklesy kapacit baterií výrobců A a C statisticky významně liší.

p-hodnota (Shapirův – Wilkův test) Data jsou nezávislá (každý údaj byl změřen na jiné statistické jednotce). Ověření normality (exaktní): 𝐻 0 : Data jsou výběrem z normálního rozdělení. 𝐻 𝐴 : Data nejsou výběrem z normálního rozdělení. ¬𝐻 0 Na hladině významnosti 5% nelze zamítnout předpoklad normality (viz tabulka). Ověření shody rozptylů 𝐻 0 : 𝜎 𝐴 2 = 𝜎 𝐶 2 𝐻 𝐴 : 𝜎 𝐴 2 ≠ 𝜎 𝐶 2 Na hladině významnosti 5% nelze zamítnout hypotézu o shodě rozptylů (𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎=0,054, F test). Rozptyl poklesů kapacit akumulátorů je pro výrobce A cca 1,48 krát větší než pro výrobce C. S 95% spolehlivostí lze poměr rozptylů poklesů kapacit výrobců A a C odhadovat mezi 0,99 a 2,20. výrobce p-hodnota (Shapirův – Wilkův test) A 0,923 C 0,271

Na základě ověření předpokladů byl pro analýzu vybrán dvouvýběrový t-test. 𝐻 0 : 𝜇 𝐴 = 𝜇 𝐶 𝐻 𝐴 : 𝜇 𝐴 < 𝜇 𝐶 Na hladině významnosti 5% zamítáme hypotézu o shodě středních poklesů kapacit baterií výrobců A a C vůči alternativě, že baterie výrobce A vykazují menší průměrný pokles kapacit než baterie výrobce C (𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎≪0,001, dvouvýběrový t-test). Baterie výrobce A lze v tomto ohledu označit za statisticky významně kvalitnější než baterie výrobce C. Doplnění bodového a 95% intervalového odhadu 𝜇 𝐴 − 𝜇 𝐶 ≅−55 𝑚𝐴ℎ Průměrný pokles kapacit baterií výrobce C je o cca 55 mAh větší než průměrný pokles kapacit baterií výrobce A. S 95% spolehlivostí lze očekávat, že průměrný pokles kapacit baterií výrobce C je o více než 51 mAh větší než průměrný pokles kapacit baterií výrobce A.

Vícevýběrové testy

Ověření shody rozptylů (homoskedasticity) ve více než dvou výběrech Homoskedasticita (shoda rozptylů) je častým předpokladem testů o shodě středních hodnot. Jak posoudit homoskedasticitu pomocí grafů exploratorní analýzy? Tato data pravděpodobně splňují předpoklad homoskedasticity. možný zdroj heteroskedasticity

Ověření shody rozptylů (homoskedasticity) ve více než dvou výběrech Homoskedasticita (shoda rozptylů) je častým předpokladem testů o shodě středních hodnot. Jak posoudit homoskedasticitu pomocí grafů exploratorní analýzy? 𝑠 𝑚𝑎𝑥 2 𝑠 𝑚𝑖𝑛 2 > 2 ⇒ podezření na heteroskedasticitu Tato data pravděpodobně nesplňují předpoklad homoskedasticity.

Ověření shody rozptylů (homoskedasticity) ve více než dvou výběrech Homoskedasticita (shoda rozptylů) je častým předpokladem testů o shodě středních hodnot. Jak posoudit homoskedasticitu exaktně pomoci testování hypotéz? 𝐻 0 : Rozptyly měřené veličiny jsou v jednotlivých skupinách shodné. 𝐻 𝐴 : ¬ 𝐻 0 (Alespoň ve dvou skupinách se rozptyly měřené veličiny liší.)

Ověření shody středních hodnot ve více než dvou výběrech To, zda lze očekávat, že jsou střední hodnoty stejné, záleží nejen na průměrech tříd, ale i na rozptylech uvnitř tříd a rozptylech mezi třídami. Skupina 1 2 3 Průměr 10 60 30

Ověření shody středních hodnot ve více než dvou výběrech To, zda lze očekávat, že jsou střední hodnoty stejné, záleží nejen na průměrech tříd, ale i na rozptylech uvnitř tříd a rozptylech mezi třídami. Skupina 1 2 3 Průměr 10 60 30 Skupina 1 2 3 Průměr 10 60 30

Ověření shody středních hodnot ve více než dvou výběrech ANOVA – analýza rozptylu, tj. test o shodě středních hodnot Předpoklady testu ANOVA: nezávislost výběrů, normalita rozdělení (POZOR - nutno ověřit pro každý výběr zvlášť!!!), homoskedasticita (tj. identické rozptyly, pro ověření lze použít např. Bartlettův nebo Leveneův test) Poznámka: ANOVA byla původně navržena pro vyvážené třídění 𝑛 1 = 𝑛 2 =…= 𝑛 𝑘 . To není předpokladem testu, ale čím těsněji je toto splněno, tím věrohodnější jsou výsledky testu.

Ověření shody středních hodnot ve více než dvou výběrech ANOVA – analýza rozptylu, tj. test o shodě středních hodnot dílčí i celkové výsledky testu ANOVA se zapisují do tabulky, kde 𝐹 0 (𝑥) je distribuční funkce Fisherova-Snedecorova rozdělení s 𝑑𝑓 𝐵 stupni volnosti v čitateli a 𝑑𝑓 𝑒 stupni volnosti ve jmenovateli.

V souboru aku2.csv jsou uvedeny naměřené kapacity baterií čtyř výrobců po 5 a po 100 nabíjecích cyklech a vypočtené hodnoty poklesů těchto kapacit. Na 5% hladině významnosti ověřte, zda se poklesy kapacit výrobců A, C a D statisticky významně liší. Řešení – viz skript workshop10.R: Preprocesing dat: identifikace odlehlých pozorování a jejich zpracování Explorační analýza: vizualizace dat (vícenásobný boxplot, histogramy), výpočet výběrových charakteristik, posouzení normality (QQ grafy), posouzení shody rozptylů Statistická indukce (nezapomínat na volbu hladiny významnosti a ověření předpokladů): Ověření hypotézy, zda se průměrné poklesy kapacit baterií výrobců A, C a D statisticky významně liší.

V souboru aku2.csv jsou uvedeny naměřené kapacity baterií čtyř výrobců po 5 a po 100 nabíjecích cyklech a vypočtené hodnoty poklesů těchto kapacit. Na 5% hladině významnosti ověřte, zda se poklesy kapacit výrobců A, C a D statisticky významně liší.

p-hodnota (Shapirův – Wilkův test) Data jsou nezávislá (každý údaj byl změřen na jiné statistické jednotce). Ověření normality (exaktní): 𝐻 0 : Data jsou výběrem z normálního rozdělení. 𝐻 𝐴 : Data nejsou výběrem z normálního rozdělení. ¬𝐻 0 Na hladině významnosti 5% nezamítáme předpoklad normality (viz tabulka). výrobce p-hodnota (Shapirův – Wilkův test) A 0,923 C 0,271 D 0,263

Ověření shody rozptylů 𝐻 0 : 𝜎 𝐴 2 = 𝜎 𝐶 2 = 𝜎 𝐷 2 𝐻 𝐴 :¬ 𝐻 0 Na hladině významnosti 5% nelze zamítnout hypotézu o shodě rozptylů (𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎=0,238, Bartlettův test). Předpoklady pro použití ANOVy nelze zamítnout. ANOVA 𝐻 0 : 𝜇 𝐴 = 𝜇 𝐶 = 𝜇 𝐷 Na hladině významnosti 5% zamítáme hypotézu o shodě průměrných poklesů kapacit výrobců A, C a D (𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎≪0,001, ANOVA).

Ověření shody středních hodnot ve více než dvou výběrech Post hoc analýza aneb vícenásobné porovnávání Zamítneme-li u testu ANOVA nulovou hypotézu, měli bychom zjistit, co bylo příčinou tohoto zamítnutí, tj. najít případné homogenní podskupiny mezi srovnávanými třídami. Post hoc analýza Tukeyho metodou Mezi všemi srovnávanými výrobci jsou statisticky významné rozdíly v poklesech kapacit akumulátorů. Statisticky významně největší pokles kapacit vykazují akumulátory výrobce C, statisticky významně nejnižší pokles kapacit vykazují akumulátory výrobce D.

Ověření shody mediánů ve více než dvou výběrech Kruskalův – Wallisův test Předpoklady Kruskallova – Wallisova testu: nezávislost výběrů, stejný typ rozdělení měřené veličiny pro všechny třídy

V souboru aku2.csv jsou uvedeny naměřené kapacity baterií čtyř výrobců po 5 a po 100 nabíjecích cyklech a vypočtené hodnoty poklesů těchto kapacit. Na 5% hladině významnosti ověřte, zda se poklesy kapacit jednotlivých výrobců statisticky významně liší. Řešení – viz skript workshop10.R: Preprocesing dat: identifikace odlehlých pozorování a jejich zpracování Explorační analýza: vizualizace dat (vícenásobný boxplot, histogramy), výpočet výběrových charakteristik, posouzení normality (QQ grafy), posouzení shody rozptylů Statistická indukce (nezapomínat na volbu hladiny významnosti a ověření předpokladů): Ověření hypotézy, zda se průměrné poklesy kapacit baterií výrobců A, B, C a D statisticky významně liší.

V souboru aku2.csv jsou uvedeny naměřené kapacity baterií čtyř výrobců po 5 a po 100 nabíjecích cyklech a vypočtené hodnoty poklesů těchto kapacit. Na 5% hladině významnosti ověřte, zda se poklesy kapacit jednotlivých výrobců statisticky významně liší.

p-hodnota (Shapirův – Wilkův test) Data jsou nezávislá (každý údaj byl změřen na jiné statistické jednotce). Ověření normality (exaktní): 𝐻 0 : Data jsou výběrem z normálního rozdělení. 𝐻 𝐴 : Data nejsou výběrem z normálního rozdělení. ¬𝐻 0 Na hladině významnosti 5% zamítáme předpoklad normality (viz tabulka). výrobce p-hodnota (Shapirův – Wilkův test) A 0,923 B 0,002 C 0,271 D 0,263

Kruskalův – Wallisův test 𝐻 0 : 𝑥 0,5 𝐴 = 𝑥 0,5 𝐵 = 𝑥 0,5 𝐶 = 𝑥 0,5 𝐷 Předpoklady pro použití ANOVy nejsou splněny (předpoklad normality), proto pro testování volíme Kruskalův – Wallisův test (jeho předpoklady splněny jsou). Kruskalův – Wallisův test 𝐻 0 : 𝑥 0,5 𝐴 = 𝑥 0,5 𝐵 = 𝑥 0,5 𝐶 = 𝑥 0,5 𝐷 𝐻 𝐴 :¬ 𝐻 0 Na hladině významnosti 5% zamítáme hypotézu o shodě mediánů poklesů kapacit výrobců A, B, C a D (𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎≪0,001, Kruskalův – Wallisův test). Post hoc analýza Dunnové metodou Mezi všemi srovnávanými výrobci jsou statisticky významné rozdíly v poklesech kapacit akumulátorů. Statisticky významně největší pokles kapacit vykazují akumulátory výrobce B, jako druhý nejhorší se jeví výrobce C. Statisticky významně nejnižší pokles kapacit vykazují akumulátory výrobce D.

DěkujEME za pozornost!