Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

18. října 2004Statistika (D360P03Z) 3. předn.1 příklad: plánovaná těhotenství je souvislost mezi odpověďmi o plánovaném těhotenství a vzděláním matek?

Podobné prezentace


Prezentace na téma: "18. října 2004Statistika (D360P03Z) 3. předn.1 příklad: plánovaná těhotenství je souvislost mezi odpověďmi o plánovaném těhotenství a vzděláním matek?"— Transkript prezentace:

1 18. října 2004Statistika (D360P03Z) 3. předn.1 příklad: plánovaná těhotenství je souvislost mezi odpověďmi o plánovaném těhotenství a vzděláním matek? vzděl.neplán.plán.celk. zákl.201434 střední163147 VŠ51318 celkem415899 vzděl.neplán.plán.celk. zákl.58,8%41,2%100% střední34,0%66,0%100% VŠ27,8%72,2%100% celkem41,4%58,6%100%

2 18. října 2004Statistika (D360P03Z) 3. předn.2 příklad: očekávané četnosti vzděl.neplán.plán.celk. zákl.14,0819,9234 střední19,4627,5447 VŠ7,4610,5418 celkem41,0058,0099 závislost prokázána

3 18. října 2004Statistika (D360P03Z) 3. předn.3 příklad – předvolební průzkum pohlaví strana celkem AB muž11415 žena6915 celkem171330 pohlaví strana celkem AB muž 73%27%100% žena 40%60%100% celkem 57%43%100% pohlaví strana celkem AB muž 65%31%50% žena 35%69%50% celkem 100% 30 voličů bylo dotázáno, které ze dvou stran dají přednost; souvisí odpovědi s pohlavím?

4 18. října 2004Statistika (D360P03Z) 3. předn.4 čtyřpolní tabulka - závislost označení četností ve čtyřpolní tabulce lze sílu závislosti měřit čtyřpolním korelačním koeficientem je mezi –1 a 1 příklad: aba+b cdc+d a+cb+dn

5 18. října 2004Statistika (D360P03Z) 3. předn.5 příklad r 2,2 > 0 znamená, že stejným indexem označené možnosti se vyskytují častěji, než bychom očekávali při nezávislosti (muž&A, žena&B) pohlavístranacelkem AB muž11415 žena6915 celkem171330 11· 9 > 6 * 4

6 18. října 2004Statistika (D360P03Z) 3. předn.6 čtyřpolní tabulka závislost se prokazuje pomocí statistiky chí- kvadrát, kterou lze upravit na tvar příklad: závislost jsme tedy na 5% hladině neprokázali

7 18. října 2004Statistika (D360P03Z) 3. předn.7 příklad (Simpsonův paradox) venkovABcelk. muž5611 žena347 celk.81018 městoABcelk. muž639 žena9514 celk.15823 r 2,2 =0,03 r 2,2 =0,02 obojíABcelk. muž11920 žena12921 celk.231841 r 2,2 = - 0,02 kdyby stejný poměr muži:ženy na obou místech – bez problému

8 18. října 2004Statistika (D360P03Z) 3. předn.8 kvalitativní - kvantitativní podle kvalitativní proměnné rozdělit hodnoty kvantitativní proměnné do dílčích souborů porovnat charakteristiky dílčích souborů mezi sebou; pokud se hodně liší – je závislost celkový průměr = vážený průměr dílčích průměrů celkový rozptyl = vážený průměr rozptylů + rozptyl průměrů (přesně pro populační rozptyly s n ve jmenovateli)

9 18. října 2004Statistika (D360P03Z) 3. předn.9 příklad: věk matek – plán. těhot. (1) neano 20 25 30 35 zda těhotenství plánováno věk matky

10 18. října 2004Statistika (D360P03Z) 3. předn.10 závislost pro nula-jedničkové x sílu závislosti x, y vyjadřuje bodově biseriální korelační koeficient kde je průměr těch y i, u nichž je x = 1 kde je průměr těch y i, u nichž je x = 0 kde s je směrodatná odchylka všech y (n- 1) ve jmenovateli kde n 0 je počet nul a n 1 počet jedniček mezi x

11 18. října 2004Statistika (D360P03Z) 3. předn.11 příklad: věk matek – plán. těhot. (2) zda plánrozsahprůměrsměr. odch. ne4124,74,24 ano5826,43,93 celkem9925,74,12

12 18. října 2004Statistika (D360P03Z) 3. předn.12 příklad: výška otce ~ vzdělání matky

13 18. října 2004Statistika (D360P03Z) 3. předn.13 příklad: výška otce ~ vzdělání matky vzdělánírozsahprůměrsměr. odch. základní34177,16,0 střední47179,56,4 VŠ18182,87,8 celkem99179,36,8

14 18. října 2004Statistika (D360P03Z) 3. předn.14 rozklad rozptylu do skupin celkový rozptyl = vážený průměr rozptylů + rozptyl průměrů (populační rozptyly) x ij - j-té pozorování z i-té skupiny - průměr v i-té skupině, celkový prům. variabilita se rozkládá: celková = uvnitř skupin + mezi skupinami

15 18. října 2004Statistika (D360P03Z) 3. předn.15 rozklad rozptylu - příklad budeme-li chtít prokázat rozdíl mezi skupinami, vyjdeme z uvedeného rozkladu čím je součet čtverců mezi skupinami větší, tím spíš bychom měli prokázat rozdíl mezi skupinami měřítkem bude součet čtverců uvnitř skupin vydělený (n – k), kde k je počet skupin

16 18. října 2004Statistika (D360P03Z) 3. předn.16 příklad: výška otce ~ vzdělání matky vzdělánírozsahprůměrsoučet čtvercůsměr. odch. základní34177,11188,76,0 střední47179,51909,86,4 VŠ18182,81027,17,8 celkem99179,34511,26,8 (183-177,1) 2 +…+(180-177,1) 2 =1188,7 (180-179,5) 2 +…+(172-179,5) 2 =1909,8 (187-182,8)2+…+(180-182,3) 2 =1027,1 variabilita mezi: 4511,2 - 4125,6 = 385,6

17 18. října 2004Statistika (D360P03Z) 3. předn.17 tabulka analýzy rozptylu variabilitasoučet čtv. stupně vol. prům. čtv. Fp mezi skup.385,62192,84,490,014 uvnitř skup.4125,69643,0 celková4511,298 průměrný čtverec mezi skupinami (nestejnost průměrů) je v porovnání s průměrným čtvercem uvnitř skupin příliš veliký závislost jsme prokázali F = 4,49 > F 2,96 (0,05)=1,62

18 18. října 2004Statistika (D360P03Z) 3. předn.18 dvojice kvantitativních veličin + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + 657075 6000 8000 10000 délka hmotnost + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + ++ + + + + + + + + + + + + + ++ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 1.01.52.02.53.0 70 90 110 130 průměr 7. ročník IQ r = -0,69 r = 0,45

19 18. října 2004Statistika (D360P03Z) 3. předn.19 závislost spojitých veličin kovariance (Pearsonův) korelační koef. (z-skóry)

20 18. října 2004Statistika (D360P03Z) 3. předn.20 příklad: hmotnost a délka (24. týden) délka [cm]: hmotnost [g]: kovariance [cm g]: korelační koeficient: hmotnost [kg]: kovariance [cm kg]: korelační koeficient:

21 18. října 2004Statistika (D360P03Z) 3. předn.21 (Pearsonův) korelační koeficient vypovídá o směru závislosti při r < 0 s rostoucím x v průměru klesá y platí -1  r  1 když body [x ; y ] leží na přímce, pak |r | = 1 vzájemné nezávislosti odpovídají r blízké 0 hranice statistické průkaznosti závisí na n, čím větší n, tím menší |r | stačí (tabulky) takto hodnotit průkaznost lze jen někdy (normální rozdělení) špatně zachytí křivočarou závislost

22 18. října 2004Statistika (D360P03Z) 3. předn.22 Spearmanův korelační koeficient Spearmanův korel. koef. místo původních hodnot x i, y i použije jejich pořadí R i, Q i vhodné pro nelineární monotónní závislost, nevadí odlehlé hodnoty při testování nemusí být normální rozdělení

23 18. října 2004Statistika (D360P03Z) 3. předn.23 příklad: alkohol – úmrtnost na cirhózu zeměspotřebaúmrtnostRiRi QiQi Finsko3,93,613 Norsko4,24,325 Irsko5,63,432 Holandsko5,73,744 Švédsko6,67,257 Anglie&Wales7,23,061 Belgie10,812,378 Rakousko10,97,086 SRN12,323,7910 Itálie15,723,6109 Francie24,746,111

24 18. října 2004Statistika (D360P03Z) 3. předn.24 příklad: alkohol – úmrtnost na cirhózu

25 18. října 2004Statistika (D360P03Z) 3. předn.25 příklad: výšky rodičů (1) 155160165170175 165 170 175 180 185 Výšky rodičů matka otec 155160165170175 0 50 100 150 200 Výšky rodičů matka otec

26 18. října 2004Statistika (D360P03Z) 3. předn.26 příklad: výšky rodičů (2)

27 18. října 2004Statistika (D360P03Z) 3. předn.27 příklad: výšky rodičů pozor na nevhodnou volbu měřítka! přímka pro zdůraznění možné závislosti r = 0,21 s rostoucí výškou matky v průměru roste výška otce nezáleží na měřítku (mohli jsme měřit v metrech, matky v jiném měřítku než otce) nezáleží na posunutí (mohli jsme každému ubrat metr)

28 18. října 2004Statistika (D360P03Z) 3. předn.28 příklad: počet letišť a velikost země 8910111213 1 2 3 4 5 6 Evropa log(area) log(airports) log(area) 8910111213 1 2 3 4 5 6 Evropa log(airports)

29 18. října 2004Statistika (D360P03Z) 3. předn.29 příklad: počet letišť a rozloha státu někdy je závislost lineární až po vhodné transformaci výsledek může záviset na jediném pozorování všech devět zemí => r = 0,93 bez Lucemburska => r = 0,69 bez logaritmování všech devět zemí => r = 0,72 bez Lucemburska => r = 0,63 Spearmanův korelační koeficient logaritmování neovlivní: r S = 0,8 (bez Lucemburska r S = 0,71)


Stáhnout ppt "18. října 2004Statistika (D360P03Z) 3. předn.1 příklad: plánovaná těhotenství je souvislost mezi odpověďmi o plánovaném těhotenství a vzděláním matek?"

Podobné prezentace


Reklamy Google