Neparametrické testy parametrické a neparametrické testy

Slides:



Advertisements
Podobné prezentace
Testování statistických hypotéz
Advertisements

Statistika.
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Statistická indukce Teorie odhadu.
Testování parametrických hypotéz
Neparametrické metody a analýza rozptylu (lekce 3-7)
Jednovýběrové testy parametrickch hypotéz
Testování neparametrických hypotéz
Testování hypotéz.
Testování statistických hypotéz
Analýza variance (Analysis of variance)
Obecný postup při testování souborů
Testování hypotéz vymezení důležitých pojmů
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Řízení a supervize v sociálních a zdravotnických organizacích
Inference jako statistický proces 1
Odhady parametrů základního souboru. A) GNR B) neznámé r. ZS (přesné parametry) : ,   VS (odhady parametrů): x, s x.
Poskytuje daný generátor opravdu posloupnost náhodných čísel?
Ringier ČR - Výzkumné oddělení
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Charakteristiky variability
základní principy a použití
Lineární regresní analýza
Biostatistika 6. přednáška
Biostatistika 7. přednáška
Kontingenční tabulky.
Pohled z ptačí perspektivy
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
8. Kontingenční tabulky a χ2 test
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
Biostatistika 1. přednáška Aneta Hybšová
PSY717 – statistická analýza dat
ADDS cviceni Pavlina Kuranova. Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých.
1. cvičení
Míry asociace obecná definice – síla a směr vztahu
Analýza variance (ANOVA). ANOVA slouží k porovnávání středních hodnot 2 a více náhodných proměnných. Tam, kde se používal dvouvýběrový t-test, je možno.
Inferenční statistika - úvod
Mann-Whitney U-test Wilcoxonův test Znaménkový test
TESTY א 2 (CHÍ-kvadrát) TEST DOBRÉ SHODY TEST DOBRÉ SHODY TEST NEZÁVISLOSTI TEST NEZÁVISLOSTI Testy pro kategoriální veličiny Testy pro kategoriální veličiny.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Sledujeme (např.): Chceme prokázat: závisí plat na dosaženém vzdělání? závisí plat na dosaženém vzdělání? je u všech čtyř strojů délka výlisků srov- natelná.
Neparametrické testy  neparametrické pořadové testy  Chí-kvadrát kontingenční tabulky test dobré shody.
TESTY א 2 (CHÍ-kvadrát) TEST DOBRÉ SHODY TEST DOBRÉ SHODY TEST NEZÁVISLOSTI TEST NEZÁVISLOSTI Testy pro kategoriální veličiny Testy pro kategoriální veličiny.
Odhady odhady bodové a intervalové odhady
INDUKTIVNÍ STATISTIKA
Opakování – přehled metod
Stručný přehled modelových rozložení I.
Statistické testování – základní pojmy
Přednáška č. – 4 Extrémní hodnoty a analýza výběrových souborů
Test dobré shody Fisherův přesný test McNemar test
Induktivní statistika
Induktivní statistika
Neparametrické testy parametrické a neparametrické testy
Induktivní statistika
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
Úvod do statistického testování
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Parciální korelace Regresní analýza
PSY117 Statistická analýza dat v psychologii Přednáška
Neparametrické testy pro porovnání polohy
T-testy, neparametrické metody a analýza rozptylu (lekce 5-6)
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Transkript prezentace:

Neparametrické testy parametrické a neparametrické testy pořadové neparametrické testy test Chí-kvadrát test nezávislosti proměnných test dobré shody

Parametrické testy t-testy a analýza rozptylu jsou tzv. parametrické testy parametr = charakteristika populace (průměr, rozptyl) parametrické testy používají při výpočtech závěry o hodnotě nějakého parametru pravděpodobnostního rozdělení

Parametrické testy např. u t-testu předpokládáme, že směrodatné odchylky výběrů mohou posloužit jako odhad pro směrodatnou odchylku populace podobně počítají s normálním rozdělením měřeného znaku pokud nejsou tyto předpoklady splněny, můžeme dojít k nepřesným výsledkům

Neparametrické testy neparametrické testy nezávisí na charakteristikách populace ani o nich nečiní žádné závěry není vyžadováno normální rozdělení znaku proto jsou tyto testy označovány také jako „distribution-free“ testy, nezávislé na rozdělení

Neparametrické testy proč potom vůbec používat parametrické testy? mnoho parametrických testů je poměrně „odolných“ (tzv. robustních) vůči narušení předpokladů testu (např. menší odchylky od normálního rozdělení výsledky nezkreslí) parametrické testy mají větší statistickou sílu než neparametrické (větší pravděpodobnost zjištění rozdílu, pokud skutečně existuje) pro některé typy analýz neparametrické metody nejsou (např. neexistuje obecně přijímaná neparametrická faktoriální ANOVA)

Neparametrické testy hlavní výhody neparametrických testů nejsou omezeny předpokladem normálního rozdělení jsou často založeny na pořadí, dají se použít i pro ordinální data (kde můžeme spočítat pouze průměr, nikoli medián) i pro nominální (test Chí-kvadrát) nejsou citlivé na extrémní hodnoty

Neparametrické testy využívají se v těchto situacích: proměnné jsou měřeny na ordinální úrovni velikost souboru je malá hodnoty měřeného znaku nejsou rozděleny normálně pro zvýšení validity závěrů z parametrických metod

Neparametrické testy přehled neparametrických ekvivalentů parametrických testů t-test pro nezávislé výběry – Mann-Whitneyův U test, Wilcoxonův test t-test pro závislé výběry – Wilcoxonův test analýza rozptylu – Kruskall-Wallisův test opakovaná měření (ANOVA) – Friedmanův pořadový test

Test Chí-kvadrát používá se při analýze kategoriálních dat chí-kvadrát může být použit pro testování rozdělení jedné proměnné (test dobré shody) testování nezávislosti dvou proměnných

Test Chí-kvadrát chí-kvadrát pro testování nezávislosti proměnných se používá pro nominální nebo ordinální proměnné data jsou uspořádána do tzv. kontingenční tabulky (viz příklad)

Příklad zajímá nás, jak souvisí model manželství s jeho vydařeností model manželství má kategorie: dominance žena, dominance muž, kooperace vydařenost má 3 kategorie – vydařené, průměrné, nevydařené pozn.: jde o manželství rodičů respondentů, tak jak je posuzují oni (zdroj dat – výzkum doc. Plaňavy)

Příklad otázka zní: liší se podíl vydařených, průměrných a nevydařených manželství u rodin, kde dominovala matka, rodin, kde dominoval otec a u rodin, kde nedominoval ani jeden z nich?

Kontingenční tabulka (SPSS)

Test Chí-kvadrát chí-kvadrát porovnává očekávané a pozorované četnosti očekávané jsou četnosti za předpokladu, že proměnné jsou nezávislé

Příklad v našem příkladu bylo 42,2% vydařených manželství pokud by proměnné (model a vydařenost manželství) byly vzájemně nezávislé, poměr vydařených manželství v jednotlivých modelech manželství by měl být přibližně stejný (a odrážet celkový podíl) – 42% podobně ostatní kategorie…

Oij = (ři sj )/ N Test Chí-kvadrát očekávané četnosti – výpočet: (pro každé políčko tabulky se vynásobí celkové četnosti z příslušného řádku se sloupcovými četnostmi a vydělí celkovým počtem osob)

Příklad

Příklad pro první políčko tabulky (vydařená manželství s dominantní matkou) je očekávaná četnost Oij = (ři sj )/ N O11 = (ř1 s1 )/ N O11 = (69*65 )/ 154 O11 = 29,12

Očekávané četnosti

Test Chí-kvadrát chí-kvadrát porovná očekávané četnosti s pozorovanými c2 = S [(pozor. četnosti – oček.)2/oček.]

Příklad c2 = S [(pozor. četnosti – oček.)2/oček.]

Test Chí-kvadrát pro vyhledání kritické hodnoty c2 v tabulce musíme vypočítat ještě počet stupňů volnosti (df) df = (ř-1) (s-1) (tj. počet řádků -1 krát počet sloupců -1)

Příklad c2 krit = 9,49 df = (ř-1) (s-1) df = (3-1) * (3-1) df = 4 v tabulkách vyhledáme kritickou hodnotu c2 pro df=4 a 5% hladinu významnosti c2 krit = 9,49

Příklad c2 krit = 9,49 c2 = 18,71 závěr: vypočítaná hodnota je větší než kritická hodnota - očekávané a pozorované četnosti se liší na 5% hladině významnosti (tj. je malá pravděpodobnost, že proměnné jsou nezávislé)

Test Chí-kvadrát v SPSS

Chí-kvadrát pro 1 proměnnou tzv. test dobré shody (goodness-of-fit test) testuje, zda se rozdělení hodnot blíží předpokládanému rozdělení opět porovnává očekávané a pozorované četnosti předpokladem očekávaných četností není tentokrát nezávislost proměnných (máme jen 1)

Test dobré shody jak určíme očekávané četnosti? např.: předpoklad vyplývá z teorie (např. u genetických dat – poměr osob s projevem dominantní a recesivní alely) nebo můžeme předpokládat stejné rozdělení do kategorií, tzv. předpoklad homogenity

Příklad je počet sebevražd stejný každý den v týdnu? zjistíme data pro rok 2000 (ČR)

Příklad pondělí 255 úterý 247 středa 240 čtvrtek 206 pátek 236 sobota 192 neděle 226

Příklad očekávané četnosti stejný počet sebevražd pro každý den v týdnu celkem 1602 sebevražd očekávaná četnost pro každý den je 228,9

Příklad

Příklad c2 = 13,44 vzorec pro výpočet je stejný df = k -1 (počet kategorií -1) df = 6 pro df =6 a 5% hladinu významnosti je c2 krit = 12,59 rozdíl je statisticky významný

Výstup v SPSS

Omezení Chí-kvadrátu 2 potenciální problémy: malý počet osob – pokud má velké % políček tabulky očekávanou četnost menší než 5 (v ideálním případě by všechna měla mít oček. četnost nejméně 5 osob) příliš velký počet osob – čím vyšší N, tím vyšší c2 (vyjdou významné i malé rozdíly)

Kontrolní otázky výhody a nevýhody neparametrických testů kdy je možno využít chí–kvadrát jako test nezávislosti proměnných? (pro jaké typy proměnných?) kdy se chí–kvadrát využívá jako test dobré shody?

Literatura Hendl kapitola 8 příklad použití testu Chí-kvadrát v empirické studii: Samuels J., Bienvenu O.J., Cullen B., Costa P.T. Jr, Eaton W.W., Nestadt G. (2004). Personality dimensions and criminal arrest. Comprehensive Psychiatry, 45, 275-280.