Testování neparametrických hypotéz
Neparemetrické hypotézy Hypotézy o vlastnostech populace (typ rozdělení, závislosti, …)
Testy dobré shody (testy o shodě mezi výb. a teoret. rozdělením) Χ2 – test dobré shody Kolmogorovův – Smirnovův test pro jeden výběr
Χ2 – test dobré shody Volba H0 H0: Výběr pochází z populace, v níž jsou relativní četnosti jednotlivých variant rovny číslům, populace musí být roztříditelná podle nějakého znaku do k skupin. H0: Výběr pochází z rozdělení určitého typu, jehož parametry jsou dány (úplně specifikovaný model). H0: Výběr pochází z rozdělení určitého typu, přičemž neověřujeme informace o parametrech rozdělení, parametry modelu odhadujeme (neúplně specifikovaný model).
Χ2 – test dobré shody Volba testové statistiky n … rozsah výběru k … počet variant h … počet odhadovaných parametrů modelu ni … empirické četnosti jednotlivých variant π0,i … očekávané rel. četnosti jednotlivých variant
Χ2 – test dobré shody Předpoklad testu Očekávané četnosti musí být větší než 5 (alespoň 80% očekávaných četností musí být větších než 5)
Χ2 – test dobré shody Výpočet p – value
Příklady Litschmannová M., Statistika I. – cvičení, Testování neparam. hypotéz: 12.1 -12.3
Kolmogorovův-Smirnovův test pro jeden výběr Používá se pro ověření hypotézy, zda pořízený výběr pochází z rozdělení se spojitou distribuční funkcí F(x). F(x) musí být úplně specifikovaná.
Kolmogorovův-Smirnovův test pro jeden výběr Výhody oproti X2 -testu dobré shody: větší síla testu nemá omezující podmínky (lze použít při výběrech malého rozsahu) vychází z jednotlivých pozorování a nikoliv z údajů setříděných do skupin
Kolmogorovův-Smirnovův test pro jeden výběr H0 a HA: H0: HA: Testová statistika:
Kolmogorovův-Smirnovův test pro jeden výběr Dn
Kolmogorovův-Smirnovův test pro jeden výběr Nulové rozdělení: Speciální rozdělení pro tento test, kvantily tabelovány – viz. Tab. 5 Výpočet p-value
Příklady Litschmannová M., Statistika I. – cvičení, Testování neparam. hypotéz: 12.4
Testy v kontingenční tabulce
X2 -test nezávislosti v kontingenční tabulce (Testování závislosti dvou kategoriálních proměnných)
Co je to kontingenční tabulka? Dvourozměrná tabulka četností, z jejichž hodnot můžeme usoudit na závislost či nezávislost mezi dvěma kategoriálními proměnnými
Grafický výstup pro analýzu závislosti dvou kategoriálních proměnných Shlukový sloupcový graf Kumulativní sloupcový graf Mozaikový graf 100% skládaný pruhový graf (Lze použít k explorační analýze závislosti)
Shlukový sloupcový graf (Statgraphics)
Shlukový sloupcový graf (Excel)
Kumulativní sloupcový graf (Excel)
Mozaikový graf (Statgraphics)
100% skládaný pruhový graf (Excel)
Pojmy: Pozorované (empirické) četnosti Oij (Observed frequency) – zjištěné sdružené četnosti Očekávané (teoretické) četnosti Eij (Expected frequency) – sdružené četnosti očekávané za předpokladu nezávislosti proměnných (aneb platí-li H0) Odchylky, rezidua (Deviation) – rozdíly mezi očekávanými a pozorovanými četnostmi = Eij-Oij
Chí-kvadrát test nezávislosti v kontingenční tabulce Ideální případ nezávislosti Oij=Eij aneb Oij-Eij=0 i=1, …, m; j=1, …, n
Chí-kvadrát test nezávislosti v kontingenční tabulce H0 a HA: H0: Proměnné v kontingenční tabulce jsou nezávislé. HA: Proměnné v kontingenční tabulce jsou závislé. Testová statistika (Pearsonova statistika chí-kvadrát): m … počet řádků kont. tabulky n … počet sloupců kont. tabulky
Chí-kvadrát test nezávislosti v kontingenční tabulce Předpoklady testu: Žádná očekávaná četnost nesmí klesnout pod 2 Alespoň 80% četností musí být větších než 5 Výpočet p-value
Rozšířená kontingenční tabulka Intenzivní Standardní Celkem Vysvětlivky Nezletilý 177 64% 63% 155,5 21,5 3,0 99 36% 46% 120,5 -21,5 3,8 276 Empirické četnosti Eij Řádkové rel. četnosti Sloupcové rel. četnosti Očekávané četnosti Oij Odchylky (Eij-Oij) (Eij-Oij)2/Oij Zletilý 103 47% 37% 124,5 3,7 118 53% 54% 96,5 4,8 221 Řádkové rel.četnosti 280 217 497
Příklady Litschmannová M. , Statistika I. – cvičení, Testování neparam Příklady Litschmannová M., Statistika I. – cvičení, Testování neparam. hypotéz: 12.5
m, n … počet řádků (sloupců) kont. tabulky Yatesova korekce Lze provést v případě, kdy nejsou splněny předpoklady chí-kvadrát testu nezávislosti (extrémně nízké očekávané četnosti). Snižuje pravděpodobnost chyby I. druhu, tím však snižuje sílu testu. Testová statistika (Pearsonova statistika chí-kvadrát): m, n … počet řádků (sloupců) kont. tabulky Výpočet p-value:
Fisherův exaktní test Užívá se v případě extrémně nízkých očekávaných četností. Lze použít pouze pro čtyřpolní tabulky. Určují se pravděpodobnosti výskytu všech možných obměn četností v kontingenční tabulce, které dávají stejné marginální četnosti jako tabulka zjištěných četností…
McNemarův test Pouze pro čtyřpolní tabulky. Test shody rozdělení pro závislé alternativní proměnné se stejnými kódy. Nulová a alternativní hypotéza: H0: Procenta „úspěšností“ jsou u obou veličin stejná. HA: Procenta „úspěšností“ nejsou u obou veličin stejná. Testové kritérium: Předpoklad testu: Výpočet p-value:
Příklady Litschmannová M. , Statistika I. – cvičení, Testování neparam Příklady Litschmannová M., Statistika I. – cvičení, Testování neparam. hypotéz: 12.6