Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Neparametrické metody

Podobné prezentace


Prezentace na téma: "Neparametrické metody"— Transkript prezentace:

1 Neparametrické metody
t-testem (a řadou dalších) testuji hypotézy o parametrech rozdělení (v t-testu o μ jako parametru normálního rozdělení); jsou ale i jiné přístupy

2 Co dělat, když data nemají normální rozdělení
Co dělat, když data nemají normální rozdělení? a narušení normality ja tak velké, že nemohu spoléhat na robustnost testu exitují transformace, které data přiblíží k normalitě (to improve the normality a homoscedascity) [bude probráno později] Pokud mají data rozdělení, které lze rozumně aproximovat vybranými typy rozdělení, pak lze použít speciální metody pro ně vyvinuté (zobecněné lineární modely) [Šmilauerova přednáška Moderní regresní metody] Použijeme neparametrické testy

3 Neparametrické metody
Nejčastěji: Permutační [obecně randomizační] testy Testy založené na pořadí

4 Permutační testy Základní myšlenka (pro t-test):
Dosažená hladina významnosti je pravděpodobnost, že takhle rozdílné výběry dostanu náhodou, pokud vybírám z jednoho základního souboru. No tak si to vyzkouším - hodím všechna pozorování z obou skupin do klobouku, a budu si skupiny tahat:

5 A tak dále, aspoň tisíckrát
Koukám, kolikrát je |t| z náhodně generova-ných skupin větší než to z dat. Tak si to tady zkouším nasimulovat Tomuhle P nevěřím, protože nevím, jestli jsou splněny předpoklady

6 Dosažená hladina významnosti (P) se pak vypočítá
Počet náhodných permutací, kde “to vyšlo lépe než nebo stejně jako” v datech (tedy kde |tpermut | > |tdata |

7 Pozor Testuji vlastně hypotézu, že oba výběry pocházejí z téhož (ze stejného) základního souboru. Pokud chci test interpretovat jako test o poloze, pak musím přidat podmínku, že oba soubory mají stejný tvar rozdělení. Pokud se potom liší, mohou se lišit jen v parametru polohy.

8 Testy založené na pořadí
Základní myšlenka - nevíme, jaké je rozdělení, tak zapomeneme na skutečné hodnoty, a nahradíme je pořadím Řada parametrických metod má své neparametrické protějšky

9 Mann-Whitney(ův) test neparametrická obdoba dvouvýběrového t-testu
Všechny hodnoty obou výběrů seřadíme (a tím dostanou čísla od 1 do n, kde n=n1+n2) Je jedno, jestli řadím odzdola nebo odshora, jen si na to musím dát pozor, když bych užíval jednostranné testy

10 spočtu dá zvlášť vysokou hodnotu, pokud jsou pořadí v první skupině nízká nebo dá zvlášť vysokou hodnotu, pokud jsou pořadí v druhé skupině nízká R – součet pořadí v první resp. druhé skupině Platí U + U' = n1n2,

11

12 Pozor Bývají tabelovány různé hodnoty, dejte si pozor na to, co je vlastně tabelováno a jak Statistika tiskne 2*1sided exact p (kdybych chtěl jednostranný test, pokud jde odchylka správným směrem, vydělím dvěma)

13 Normální aproximace - když je velký počet pozorování, platí
Z = (U-U)/ U má tedy přibližně normované normální rozdělení. K tomu lehce dohledám příslušné p - tiskne Statistica. - Pozor - pokud mám přesné p, je tato hodnota už nezajímavá.

14 Podobně jako permutační test
i M-W má svoje předpoklady: Buď je testem nulové hypotézy, že se jedná o výběry z téhož základního souboru Pokud je formulován jako test o poloze, pak je předpokladem, že se jedná s soubory se stejným tvarem rozdělení (ale je podstatně méně citlivý na „ulítlé“ hodnoty než parametrické testy)

15 Je tedy ošidné psát protože jsme neměli homogenitu variance, museli jsme použít neparametrický test. 1. testovat, že se jedná o tentýž základní soubor, když jsem předtím prokázal nehomogenitu variance nedává smysl 2. pro test o poloze teopreticky vadí nehomogenita stejně pro MW jako pro t. (I když možná ne tak úplně moc, nehomogenita variancí původních dat bývá větší než nehomogenita variancí pořadí.)

16 Další předpoklad - data lze seřadit
Shody průměrujeme - odchylka od původního předpokladu, může činit problém, některé testy používají korekce na shody “ties”

17 Mediánový test Spočítám, společný medián, a kolik je ve které skupině pozorování nad, a kolik pod mediánem. To pak vyhodnotím klasickou čtyřpolní tabulkou. Tady je to test o společném mediánu, a nemá žádné další předpoklady, ale je hodně slabý.

18 Wilcoxonův test Obdoba párového t-testu
Pozor, někdy se Wilcoxonovým nazývá více testů, proto se někdy píše Wilcoxonův pro párová pozorování

19 Wilcoxonův test spočteme nejprve diference mezi pozorováními, potom je seřadíme podle velikosti jejich absolutní hodnoty od nejmenšího k největšímu. (Předpokládáme tedy, že jsou data odečitatelná, tj. rozdíl dat dává smysl – často se nedodržuje.) Poté spočteme součet pořadí kladných a součet pořadí záporných rozdílů (označujeme je T+ a T-). (Protože součet řady čísel 1 až n je n(n+1)/2, lze snadno dopočítat T+={n(n+1)/2}-T-) Test tedy odráží jak počet, tak velikost kladných a záporných rozdílů.

20

21 Opět lze užít normální aproximaci (pro velké výběry)
a z toho spočítat Z. Pozor, Statistica uvádí pouze normální aproximaci, netiskne přesné p -nutno dohledat v tabulkách. tabulky jsou třeba na Test má předpoklad symetričnosti rozdělení rozdílů (a samozřejmě, že rozdíly můžeme spočítat, tj. že hodnoty jsou odečitatelné, nebo že rozdíl hodnot dává smysl) .

22 V praktiku mám příklad, kdy se používá na ordinální data (míra naštvanosti psů). Nicméně, tím říkám, že rozdíl mezi naštvaností 1 a 3 je stejný jako mezi naštvaností 2 a 4.

23 Znaménkový test Porovnává počet kladných a záporných rozdílů
Nemá prakticky žádné předpoklady, ale je velmi slabý

24 Neparametrické testy jsou-li splněny předpoklady pro parametrický test bývají slabší než odpovídající parametrický test. Není ale pravdivá obecná představa, že nemají žádné předpoklady Obecně - čím více pozorování mám, tím jsou obvykle parametrické testy robustnější k narušení předpokladů Čím silnější předpoklady mám splněné, tím silnější test si obvykle mohu dovolit použít


Stáhnout ppt "Neparametrické metody"

Podobné prezentace


Reklamy Google