Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Kvantitativní metody II. (Kvantitativní metody zpracování informací II)

Podobné prezentace


Prezentace na téma: "Kvantitativní metody II. (Kvantitativní metody zpracování informací II)"— Transkript prezentace:

1 Kvantitativní metody II. (Kvantitativní metody zpracování informací II)

2 Testování hypotéz je jednou z forem statistické indukce dovoluje s předem daným rizikem omylu rozhodnout o pravdivosti zkoumané hypotézy Nulová hypotéza H 0 - rozdíl mezi dvěma charakteristikami je nulový, 2 porovnávané populace mají stejnou hodnotu zkoumaného parametru, mezi dvěma charakteristikami dané populace neexistuje žádný vztah.

3 Testování hypotéz Alternativní hypotéza H 1 – opačná k H 0 Chyby při testování hypotéz 1) H 0 platí a H 0 nezamítneme – k chybě nedochází. 2) H 0 platí a H 0 zamítneme – nastává tzv. chyba 1. druhu 3) H 0 neplatí a H 0 nezamítneme – nastává tzv. chyba 2. druhu 4) H 0 neplatí a H 0 zamítneme – k chybě nedochází.

4 Testování hypotéz Chyba 1. druhu – nastává při nesprávném zamítnutí H 0, čili při nesprávném přijetí H 1. Pro pravděpodobnost chyby 1. druhu požadujeme, aby nepřekročila předem dané číslo α blízké nule. Většinou se používá hodnota α rovná 0,05 nebo 0,01. Číslo α se nazývá hladina významnosti. Pak říkáme, že test byl proveden na hladině významnosti α. Pokud zvolíme α = 0,05, pak v 5 případech ze 100 zamítneme H 0, která je platná a zamítnuta být neměla.

5 Testování hypotéz Chyba 2. druhu – nastává při nesprávném nezamítnutí H 0, čili při nesprávném zamítnutí H 1. Pravděpodobnost chyby 2. druhu značíme většinou β. S touto chybou je spojem pojem síla testu, která se rovná 1 – β. Chyba β většinou není známá, avšak se snižujícím se α roste chyba β. Proto není vhodné volit α velmi nízké. Rozhodnutí o hypotéze je založeno na výpočtu tzv. testového kritéria.

6 Testování hypotéz Rozhodnutí o hypotéze H 0 se provádí na základě tzv. pozorované hladiny významnosti příslušné vypočtené hodnotě testového kritéria α p. H 0 se zamítá, jestliže pozorovaná hladina významnosti je menší nebo rovna námi zvolené hladině významnosti α: α p ≤ α. H 0 se nezamítá jestliže α p ≥ α.

7 Testování hypotéz Parametrické testy Pp: N (μ,σ) = normální rozdělení. Neparametrické testy není splněn pp. N (μ,σ)

8 Parametrické testy Pp: N (μ,σ) F-test (Fisherův test) H 0 : σ 1 2 = σ 2 2 H 0 : σ 1 2 ≠ σ 2 2 t-test (Studentův test) pro 2 nezávislé soubory 1) σ 1 2 = σ 2 2 2) σ 1 2 ≠ σ 2 2 H 0 : μ 1 = μ 2 H 1 : μ 1 ≠ μ 2

9 Parametrické testy Párový t-test (Studentův test) pro 2 závislé soubory H 0 : μ 1 = μ 2 H 1 : μ 1 ≠ μ 2 ANOVA … analýza rozptylu Pp: σ 1 2 = σ 2 2 = … = σ k 2 H 0 : μ 1 = μ 2 = …. = μ k H 1 : alespoň jedno μ se liší od ostatních

10 Neparametrické testy Chí-kvadrát (χ 2 ) test nezávislosti Pp: 80% hodnot n ij ≥ 5, 100% hodnot n ij ≥ 0. H 0 : sledované znaky jsou nezávislé H 1 : sledované znaky jsou závislé. Test Smirnovův-Kolmogorovův pro jeden výběr. Test Smirnovův-Kolmogorovův pro dva výběry. U-test Manna a Whitneyho (nezávislé výběry). Wilcoxonův text pro párované hodnoty (test pořadí).

11 Korelační analýza Cíl korelační analýzy: určit sílu vztahu mezi veličinami. ρ = korelační koeficient. Pp: N (μ,σ) Nezávislé veličiny: ρ = 0. Čím těsnější je vztah mezi oběma veličinami, tím více se ρ →|1|. Nepřímá korelace: se zvyšováním hodnot jedné proměnné se snižují hodnoty druhé proměnné (ρ  0) Přímá korelace: se zvyšováním hodnot jedné proměnné se zvyšují i hodnoty druhé proměnné (ρ  0)

12 Regresní analýza Cíl regresní analýzy: popsat vztah mezi veličinami = určit rovnici, která by umožňovala z hodnot nezávisle proměnné odhadnout hodnoty závislé proměnné veličiny. Jednoduchá lineární regrese: y = a * x + b, a,b … parametry přímky, b. regresní koeficient, x … nezávisle proměnná, y … závisle proměnná.

13 1. příklad Pracujte se souborem World95.sav. 1) Jaká je v souboru zemí průměrná porodnost? Jaká průměrná porodnost v katolických a jaká v budhistických zemích a jaká v židovských zemích? 2a) Jaká průměrná porodnost v zemích OECD, jaká v zemích východní Evropy a v dalších regionech a ekonomických skupinách? 2b) Ve kterých regionech je porodnost prakticky stejná? 3a) Jaká je průměrná porodnost v zemích se suchým (arid) a tropickým (tropical) podnebím? 3b) Je tento rozdíl statisticky významný? 4) Je v daném souboru zemí stejná průměrná porodnost a úmrtnost? 5) Liší se muži a ženy co do své „life expectancy“? 6) Existuje závislost mezi „life expectancy“ mužů a žen? Jaká je to závislost? 7) Existuje závislost mezi regionem a náboženstvím? 8a) Existuje závislost mezi procentem mužů a žen, které umí číst? Jaká je to závislost? 8b) Jakou křivkou je nejvhodnější popsat vztah mezi procentem žen, které umí číst (závislá proměnná) a procentem mužů, kteří umí číst (nezávislá úroměnná).

14 1. příklad Výsledky: 1) 25,848/1000 ob., katolické země: 23,829/1000 ob., buddhistické země: 22,086/1000 ob., židovské země: 21,000/1000ob. 2a) Region or economic groupBirth rate per 1000 people OECD12,952 East Europe13,429 Pacific/Asia26,271 Africa42,000 Middle East32,706 Latn America26,905 Total25,923 2b) Statisticky nevýznamný rozdíl je mezi porodností: a) v zemích OECD a ve východní Evropě; b) mezi Asií (Pacifikem) a Latinskou Amerikou. 3a) suché podnebí (arid): 29,000/1000 ob.; tropické podnebí (tropical): 31,844/1000 ob. 3b) Sig = 0,570 …. Rozdíl statisticky významný není. 4) (t = 14,853) Sig = 0 … Průměrná porodnost a úmrtnost se liší. 5) (t = 24,109) Sig = 0 …. Liší. 6) Závislost existuje. Jedná se o poměrně silnou přímou závislost. 7) Není možné test použít 86,7% četností je menších jak 5. 8a) Závislost existuje. Jedná se o poměrně silnou přímou závislost. 8b) Kvadratická křivka: Y = 0,0093 t2 + 0,477 t +2,236

15 2. příklad Pracujte se souborem GSS93 subset.sav. 1) Jaký je průměrný počet dětí, jenž by respondenti považovali za ideální (proměnná chodidel)? Jaký je tento průměrný ideální počet dětí u mužů a jaký je u žen? 2) Je rozdíl mezi průměrným ideálním počtem dětí u mužů a žen statisticky významný? 3a) Jaká je průměrný počet dětí u respondentů, kteří se poprvé oženili dříve než jim bylo 20 let (agewed menší než 20), u respondentů, kteří se poprvé oženili mezi 21 a 25ým rokem a u respondentů, kteří se poprvé oženili ve věku 26 let a později? 3b) Je průměrný počet dětí, jež respondenti, kteří se oženili v těchto třech věkových skupinách, považují za ideální, stejný? 4a) Je statisticky významný rozdíl mezi průměrným počtem dětí, jež se respondentům skutečně narodili a průměrným počtem dětí, jež respondenti považují za ideální? 4b) Jakou křivkou bychom nejlépe popsali závislost mezi ideálním počtem dětí a skutečným počtem dětí, tj. jak bychom mohli ze skutečného počtu dětí dopočítat ideální počet dětí? 5a) Pracujte s proměnnou Political Party Affliation, ale vylučte respondenty, kteří nejsou republikány ani demokraty (hodnotu „Other Party“). S proměnnou pak můžete pracovat jako s proměnnou číselnou. Je příslušnost k demokratům či republikánům ovlivněna pohlavím respondentů? 5b) Existuje závislost mezi příslušností k demokratům a republikánům a proměnnou educ (počtem odstudovaných let)? Jaká je to závislost?

16 2. příklad Výsledky: 1) 2,76muži: 2,66ženy: 2,84 2) alfa = 0,078není statisticky významný 3a) do 20 let: 2,8121 až 25 let: 2,67 let26 a více: 2,77 let 3b) Sig = 0,431…. Rozdíl statisticky významný není. Průměr můžeme považovat za stejný. 4a) (t = -12,989) Sig = 0,0000 … Rozdíl je statisticky významný. Průměry se liší. 4b) kvadratická křivka:Y = 0,032t2 – 0,33t + 2,63 5a) Sig = 0,046…. Je ovlivněna. 5b) Závislost existuje. Jedná se o poměrně silnou přímou závislost.

17 3. příklad Pracujte se souborem 1991 U.S.General Social Survey 1) Mají respondenti z jednotlivých regionů (North East, South East, West) průměrně stejný počet sourozenců? 2) Mají respondenti jednotlivých ras (černoši, běloši, ostatní) průměrně stejný počet sourozenců? Které rasy mají stejný a které rasy mají odlišný počet dětí? 3) Existuje závislost mezi počtem dětí a počtem sourozenců, které mají respondenti? Jestliže závislost existuje, popište ji. 4) Existuje závislost mezi vzděláním respondentů, vzděláním jejich matky, otce, partnera a počtem sourozenců? 5) Pomocí absolutních a relativních četností vyjádřete, kolik je v souborů bělochů, černochů a lidí ostatních ras. Dále pomocí absolutních a relativních četností určete, kolik respondentů pochází z North East, kolik z South East a kolik z West. 6) Mají běloši a černoši a ostatní průměrně stejně dětí? Které rasy se co do počtu dětí výrazně liší? 7) Mají v průměru respondenti stejně dětí, jako měli sourozenců? 8) Existuje závislost mezi rasou respondenta a regionem, z kterého respondent pochází? 9) Existuje závislost mezi věkem respondentů a počtem dětí, které mají?

18 3. příklad Pracujte se souborem Employee data 10) Existuje závislost mezi současným platem respondentů a jejich nynějším platem? Jestliže závislost existuje, popište ji. Pracujte se souborem University of Florida graduate salaries 11) Rozdělte respondenty podle výšky nástupního platu do těchto skupin - vydělávající a) do , b) až , c) až , d) až , e) až , f) více jak Kolik respondentů je v té které skupině? (vyjádřete pomocí absolutních a relativních četností.) 12) Existuje závislost mezi pohlavím respondentů a příslušností k dané platové skupině?

19 3. příklad Výsledky: 1) α = 0,142 Mají. 2) α = 0,000 (F = 34,238) Nemají stejný počet sourozenců. Průměrně stejný počet sourozenců mají „černoši“ a „ostatní“. 3) α = 0,000 (ρ = 0,191). Závislost existuje. Jedná se o přímou závislost. 4) Závislost existuje mezi všemi proměnnými. Přímá i nepřímá. 5) bělochů: 1264 a 83,3%, černochů: 204 a 13,4%, ostatních: 49 a 3,2%. North East: 679 a 44,8%, South East: 415 a 27,4%, West: 423 a 27,9%. 6) α = 0,002 Nemají, rozdíl je statisticky významný. Výrazně se odlišují běloši od černochů. (α = 0,000) 7) α = 0,000 (t = 24,464). Nemají. 8) α = 0,000 (koef. = 53,168). Závislost existuje. 9) α = 0,000 (ρ = 0,365). Závislost existuje. Jedná se o přímou závislost. 10) α = 0,000 (ρ = 0,880). Závislost existuje. Jedná se o silnou přímou závislost. 11) a) 13 a 1,2%, b) 223 a 20,3%, c) 581 a 52,8%, d) 258 a 23,5%, e) 19 a 1,7%, f) 6 a 0,5% 12) α = 0,000 (koef. = 31,736). Závislost existuje

20 4. příklad Pracujte se souborem 1991 U. S. General Social Survey.sav 1) Rozdělte respondenty podle počtu odstudovaných let do čtyř kategorií: na ty co studovali 0 až 8 let, 9 až 12 let, 13 až 16 let, 17 a více let. Pomocí absolutních a validních relativních četností vyjádřete, kolik je v každé skupině respondentů 2) Mají respondenti uvedených čtyř kategorií stejný průměrný počet dětí? 3) Mají respondenti, kteří studovali 12 až 16 let stejný průměrný počet dětí jako respondenti, kteří studovali 17 a více let? 4) Existuje závislost mezi tím, jak respondent studoval dlouho (do jaké ze čtyř námi vytvořených skupin patří) a regionem, z kterého respondent pochází?

21 4. příklad Výsledky: 1)Absolutní četnosti/relativní validní četnosti: 0 až 8 let:12381% 9 až 12 let:675445% 13 až 16 let:572377% 17 a více let:14797% 2) Použitá metoda (např. korelace apod.):.ANOVA. Výsledek: Sig = 0,000 Interpretace výsledku: nemají 3) Použitá metoda (např. korelace apod.):.t-test pro 2 nezávislé soubory Výsledek: Sig = 0,141 Interpretace výsledku: mají 4) Použitá metoda (např. korelace apod.): chí-kvadrát test Výsledek: Sig = 0,001 Interpretace výsledku: existuje závislost

22 5. příklad Pracujte se souborem GSS93subset.sav 1) Jaký je průměrný věk prvního sňatku u bělochů, černochů a ostatních? 2) Je statisticky významný rozdíl mezi průměrným věkem prvního sňatku u bělochů, a ostatních? 3) Je statisticky významný rozdíl mezi průměrným věkem prvního sňatku u respondentů jednotlivých vyznání? Jsou splněny všechny podmínky pro užití daného testového kritéria? 4) Je statisticky významný rozdíl mezi průměrným příjmem respondentů a průměrným příjmem rodin respondentů? 5) Existuje závislost mezi rasou respondentů a jejich vyznáním? (Pracujte pouze s vyznáním katolickým, protestantských a s lidmi bez vyznání, ne tedy s vyznáními ostatními a vyznáním židovským. Proč je nutno stanovit tuto podmínku?) Jestliže závislost existuje, kde je nejsilnější. 6) Rozdělte si respondenty do čtyř skupin: na respondenty, kteří mají: a) 0 dětí, b) 1 dítě, c) 2 děti, d) 3 a více dětí. Kolik respondentů v souboru (vyjádřete pomocí absolutních i relativních četností) má 0, 1, 2, 3 a více dětí? 7) Existuje závislost mezi počtem dětí (těmito čtyřmi skupinami) a vyznáním respondentů?

23 5. příklad Výsledky: 1. běloši: m = 22,71, černoši: m = 22,87, ostatní: m = 24, α = 0,023 je zde podstatný rozdíl 3. α = 0,000 je zde podstatný rozdíl (F = 8,197) α = 0,456 – rozptyly jsou shodné – jsou splněny předpoklady α = 0,456 – rozptyly jsou shodné – jsou splněny předpoklady 4. α = 0,000 je zde podstatný rozdíl (t = 24,235) 5.α = 0,000 …. Závislost existuje (koeficient = 77,367) Podmínku je nutno stanovit takto, aby bylo možné splnit předpoklad, že minimálně 80 % četností ≥ 5. Nejsilnější závislost je u protestantského vyznání: V souboru je podstatně méně protestantů černé rasy a podstatně více protestantů ostatních ras než by mělo být v případě nezávislosti dětí:n = 414p = 27,6 % 1 dítě:n = 242p = 16,1 % 2 děti: n = 398p = 26,5 % 3 a více dětí: n = 446p = 29,7 % 7. α = 0,000 …. Závislost existuje. (koeficient = 42,607)

24 6. příklad Pracujte se souborem 1991 U. S. General Social Survey.sav 1a) Rozdělte respondenty podle věku (proměnná age = Age of Respondent) do čtyř kategorií: 0 až 18 let, 19 až 35 let, 36 až 50 let, 51 let a starší. Pomocí absolutních a validních relativních četností vyjádřete, kolik je v každé skupině respondentů. 1b) Kolik mají průměrně sourozenců (proměnná sibs = Number of Brothers and Sisters) respondenti, jimž je 19 až 35 let a kolik ti, jimž je 36 až 50 let: 19 až 35 let: m = až 50 let: m =

25 6. příklad 1c) Je rozdíl mezi průměrným počtem dětí u těchto dvou věkových skupin statisticky významný? Použitá metoda (např. korelace apod.): Výsledek: Sig = Interpretace výsledku: Jestliže je třeba použít více testů, popište je také: ) Existuje závislost mezi věkovou skupinou respondenta (proměnná, kterou jste si v příkladu 1 vytvořili) a tím, zda se cítí šťastný (proměnná happy = General Happiness)? Použitá metoda (např. korelace apod.): Výsledek: Sig = Interpretace výsledku:


Stáhnout ppt "Kvantitativní metody II. (Kvantitativní metody zpracování informací II)"

Podobné prezentace


Reklamy Google