Analýza kvantitativních dat II. UK FHS Historická sociologie (LS 2012+) Analýza kvantitativních dat II. Standardní chyba a interval spolehlivosti (2.) – pro nominální znaky (podíl, procenta) (a další odhady parametrů) Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 29/11/2014 ® Jiří Šafr, 2014
Obsah (Principy inferenční statistiky a intervalového odhadu) Standardní (směrodatná) chyba (SE) pro nominální znaky (p resp. %) Výpočet CfI pro kvalitativní – nominální proměnnou (%) (Ne)možnosti výpočtu % CI v SPSS a alternativy Simultánní intervaly spolehlivosti Standardní chyba a intervaly spolehlivosti pro další parametry (korelační koeficient, medián, rozdíl podílů)
Úvod do principů inferenční statistiky, výpočet standardní chyby a intervalu spolehlivosti pro číselné proměnné, viz prezentaci: Standardní chyba a interval spolehlivosti (1.) – úvod do principů inferenční statistiky, SE a CI pro numerické/ kardinální proměnné (průměr) http://metodykv.wz.cz/AKD2_CfI_1.ppt
Chyby měření Při interpretaci a analýze výsledků z výběrových dat je třeba mít neustále na paměti, že vznikly zpracováním dat získaných z výběrového šetření (populace→vzorek). → všechny (publikované) údaje jsou pouze odhady zatížené určitou chybou a nikoliv přesná čísla. Tato chyba má dvě složky: výběrovou a nevýběrovou.
Výběrová chyba Populace → výběr → populace Vybírá se náhodně (bez vracení) pouze jeden výběrový soubor a údaje z něho reprezentují základní soubor (populaci). Chybu způsobenou volbou výběrového souboru lze s určitou předem zvolenou pravděpodobností vymezit na základě teorie výběrových šetření
Velikost výběrové chyby lze vyjádřit buď Standardní (směrodatnou) chybou - bodovým odhadem rozptylu/směrodatné odchylky nebo intervalem spolehlivosti pro odhad sledovaného ukazatele. Nejčastěji se okolo odhadu konstruuje tzv. 95 % interval spolehlivosti (vynásobením směrodatné odchylky odhadu kvantilem normovaného normálního rozdělení, tj. hodnotou 1,96). → interval, ve kterém s 95 % pravděpodobností leží skutečná hodnota odhadované charakteristiky
Intervaly spolehlivosti Tolerance chyb (margin of error) suma všech možných výběrových chyb, která kvantifikuje nejistotu výsledků měření → pravděpodobnostní interval ± (např. 95% interval spolehlivosti určuje rozpětí kolem naměřené hodnoty) ovlivněno: velikostí výběru, metoda výběru, velikost populace 95 % (konfidenční) interval spolehlivosti → jsme si jistí, že naše výběrová data z 95 % (tj. námi zvolená spolehlivost) budou obsahovat skutečnou hodnotu v celé populaci
Výsledky výběrových šetření jsou vždy jen odhadem skutečného parametru (v populaci). Jejich přesnost je závislá především na velikosti výběrového souboru a podílu hodnot daného znaku. Orientační pomůcka: pro vzorek z velké (národní) populace cca N=1000 se skutečné (populační) relativní četnosti (procenta) pohybují v těchto intervalech: Zdroj: [Special Eurobarometer 337] My si ale dále ukážeme, jak to spočítat přesně a navíc pro jakoukoliv hodnotu a míru (%, průměr, rozdíl %, korelace, …)
Princip inferenční statistiky – kategoriální znaky distribuce pravděpodobnosti (tj. %) v náhodném výběru z populace Zdroj: [De Vaus (1986) 2002: 304] Dtto ale pro podíl (procenta). Na ose X je podíl (relativní počet výskytu) odpovědí pro volbu konzervativní strany v mnoha náhodných výběrech. S rostoucím počtem opakovaných náhodných výběrů se odhadovaná hodnota % blíží skutečné hodnotě v populaci.
Binomické rozdělení Náhodný výběr 4000 osob, se rozdělí na skupiny po 40 osobách, vznikne tak 100 dílčích náhodných výběrů. Toto rozdělení odpovídá jako při dotazování u 100 reprezentativních průřezů. Tyto dílčí náhodné výběry však nemají stejné procento osob, které chodí do kostela jen „málokdy“. Podle zákona velkých čísel musí přitom menší odchylky vystupovat častěji než velké. [Noelleová 1968: 115] Podíl 27,5 % osob, které „málokdy“ navštěvuji kostel, tj. 11 ze 40 dotazovaných, vystupuje např. u 18 ze 100 dílčích náhodných výběrů, naproti tomu jen v jednom výběru je podíl 10 % = 4 ze 40 dotazovaných. Z křivky zvonovitého tvaru lze vyčíst, jaké rozdělení by se dalo očekávat v mezním případě, kdyby se neprošetřovalo pouze 100, ale libovolné množství dílčích náhodných výběrů.
Standardní/směrodatná chyba odhadu parametru (např. průměru) Neboli obecně standardní chyba vzorku Kvantifikuje nepřesnost našeho měření pro průměr: StD Error (of mean) SE = pro podíl (%): StD Error (of proportion) SE = Pozn. Pravděpodobnost, tj. podíl (%) je vlastně průměrem počtu pozorování, takže SE pro pravděpodobnost počítáme v podstatě stejně jako SE pro průměr (Směrodatná odchylka podílu děleného odmocninou z velikosti výběru).
Interval spolehlivosti (předpoklady) Dále budeme uvažovat pouze dvoustranný interval spolehlivosti (existuje také jednostranný CfI, kdy určujeme buď jen horní nebo dolní hranici) pro prostý náhodný výběr a pro velké výběrové soubory (kde n > 30) Předpokládáme alespoň přibližně normální rozložení hodnot zkoumaného jevu (což dost často z principu nemusí být)
Intervaly spolehlivosti pro kvalitativní - nominální proměnnou → četnosti (pravděpodobnost / procenta) pro jistotu: Procento je stým násobkem pravděpodobnosti, tj. p 0,1 = 10 % (takže p = 0,8 → 1 - p = 0,2)
Interval spolehlivosti pro relativní četnost tj. pravděpodobnost (tj Interval spolehlivosti pro relativní četnost tj. pravděpodobnost (tj. % /100), binomický podíl Bodový odhad ± Koeficient spolehlivosti pro zvolenou hladinu (C) x Směrodatná chyba odhadu Pravděpodobnost jevu (bodový odhad) p = x/n Směrodatná chyba pravděpodobnosti SE = √ p(1 − p)/n Interval spolehlivosti p ± zα/2(SE) C pro 95 % spolehlivost α = 0,05; zα/2 = 1,96 → Existuje 95 % spolehlivost, že naměřená hodnota ve výběru bude (v populaci) mezi hodnotami horní a dolní hranice. Máme-li proměnnou s více kategoriemi, pak počítáme p vždy jako dichotomii té které kategorie oproti součtu ostatních (např. vzdělání: VŠ / ostatní stupně (ZŠ+VY+SŠ).
Příklad: volební účast v r. 2006 Zdroj: data ISSP 2007
Příklad: volební účast v r. 2006 Máme výběrový odhad pro proměnnou Volil2006 (katg. Volil / Nevolil) Směrodatná chyba pravděpodobnosti SE pro Volil: Pravděpodobnost Volil = 750/1196 = 0,628 Pravděpodobnost Nevolil = 446/1196 = 0,373 SE = √ 0,628(1 − 0,628)/1196 = 0,014 Odhad Volil bude ležet mezi 0,628 ± 1,96 √ (0,628)(0,373)/1196 0,628 ± 0,0274 nebo (0,6006; 0,6554) nebo 62,8 (± 2,7)% Zdroj: ISSP 2007
Příklad: volební účast v r. 2006 Voleb do Poslanecké sněmovny konaných ve dnech 2.-3.6. 2006 se účastnilo 64,47 % občanů (oficiální údaj z ČSÚ). Náš výběrový odhad (data ISSP 2007) pro 95 % CfI: 60,06 ← 62,8 → 65,54 Pro 99 % CfI (kdy zα/2 = 2,326) 59,60 ← 62,8 → 66,05 Pro 90 % CfI (kdy zα/2 = 1,645) 60,05 ← 62,8 → 65,01
v SPSS CfI pro % standardně pouze v grafu BARCHART GRAPH /BAR(SIMPLE)=PCT BY q34 /INTERVAL CI(95.0). Zdroj: data ISSP 2007
BARCHART pro % s CfI, klikací postup
Třídění druhého st. v BARCHARTu (s CI pro %) GRAPH /BAR(SIMPLE)=PCT BY q34 BY q38 /INTERVAL CI(95.0). Pro porovnání % „volil v 2006“ v podskupinách (zde dle členství v odborech) Zdroj: data ISSP 2007
Na hotovou tabulku lze aplikovat skript Nebo jobíkem [Gwilym Pryce 2002] v syntaxu → vyplníme hodnoty např. z FREQ nebo CROSSTAB http://www.spsstools.net/Syntax/Distributions/ProportionTestsAndCI.txt Je to ten druhý Large-Sample Confidence Interval for a Single Population Proportion. Přepíšeme/vyplníme jen hodnotu n a p, můžeme také volit velikost CI a počet desetinných míst. Zdroj: data ISSP 2007
1. In the output (on FREQ table) you can use (post)script Script can be downloaded from: http://www.acrea.cz/sc_intervaly_spolehlivosti_cetnosti.htm This is most convenient way. However it needs to be stored in a computer and you need the appropriate version of the script fitting to your SPSS version, sometimes even some programming environment needs to be installed (Python), and also it is probably only in Czech. It doesn‘t exist in PSPP. Source: data ISSP 2007, CR
2. Syntax routine CI for proportion [Pryce 2002] http://www.spsstools.net/Syntax/Distributions/ProportionTestsAndCI.txt Here we have to fill in results, e.g. from FREQ (univariate) or possibly CROSSTAB (bivariate). In fact there are four tests in this syntax. For univariate description it is the second test Large-Sample Confidence Interval for a Single Population Proportion. Fill in only values of n a p, you can also choose CI (originaly set to 99% CI) and decimals shown. *-------------------------------------------------------------------------------. * Large-Sample Confidence Interval for a Single Population Proportion. * (see Moore and McCabe (2001) Intro to the Practice of Statistics, p. 586-588). *For the inverse normal computation, I use the approximation used by http://www.hpmuseum.org/software/67pacs/67ndist.htm adapted from Abramowitz and Stegun, Handbook of Mathematical Functions, National Bureau of Standards 1970. MATRIX. COMPUTE n = {4040}. /* Enter the sample size here (change the number in curly brackets)*/ COMPUTE x = {2048}. /* Enter the number of "successes" (change the number in curly brackets)*/ COMPUTE CONFID = {0.99}. /* Enter the desired confidence level here */ *The remainder of the syntax calculates the Confidence Interval given the values for n and x which you have entered above. *NB you don't need to alter anything from here on. COMPUTE Q = 0.5 * (1-CONFID). COMPUTE A = ln(1/(Q**2)). COMPUTE T_ = SQRT(A). COMPUTE zstar = T_ - ((2.515517 + (0.802853*T_) + (0.010328*T_**2))/ (1 + (1.432788*T_) + (0.189269*T_**2) + (0.001308*T_**3))). COMPUTE phat = x/n. COMPUTE SE_phat = SQRT((phat*(1-phat))/n). COMPUTE m = zstar * SE_phat. COMPUTE LOWER = phat - m. COMPUTE UPPER = phat + m. COMPUTE ANSWER = {n, phat, zstar, SE_phat, Lower, Upper}. PRINT ANSWER / FORMAT "F10.5" /Title = "Confidence Interval for a Single Population Proportion" / CLABELS = n, phat, zstar, SE, Lower, Upper. END MATRIX. *NB if you want to obtain values to a greater (lesser) number of decimal places, change the format specified in the last but one line of the syntax. *e.g. if you want only 3 decimal places, change the format to "F10.3". *------------------------------------------------------------------------------. The output: And don't forget, if you use this script (e.g. in diploma thesis) you should credit it, cite: Gwilym Pryce 2002. Large-Sample Confidence Interval for a Single Population Proportion. Inference for Proportions. Available at: http://www.spsstools.net/Syntax/Distributions/ProportionTestsAndCI.txt. Source: data ISSP 2007, CR
Pro kontingenční tabulku CROSS s31 BY s21. A dosadíme do vzorce (jobíku) Zdroj: data ISSP 2007 Pro kategorii „menší město“: CROSS s31 BY s21 /cel col. GRAPH /BAR(SIMPLE)=PCT BY s31 by s21/INTERVAL CI(95.0).
Kalkulátory intervalů spolehlivosti pro nominální znaky (%) http://ncalculators.com/statistics/confidence-interval-calculator.htm ten bohužel nefunguje http://www.surveysystem.com/sscalc.htm http://vassarstats.net/prop1.html
Orientační pomůcka: Statistické rozpětí odchylek pro binominální rozdělení Hodnoty 2σ — dvě směrodatné odchylky — v % → Stupeň významnosti 95,45 % n = rozsah náhodného výběru p = četnost znaku v základním souboru v % Zdroj: [Noelleová 1968: 118]
Úkol Spočítejte interval spolehlivosti pro podíl vysokoškolsky vzdělaných v ČR Porovnejte se skutečnou hodnotou v populaci (údaje ČSÚ pro 2007) → promítnout řešení z AKD2_1_CfI_RESENI
Porovnání % rozdílů – v třídění 2. stupně (binární proměnné) Zjednodušeně můžeme spočítat interval spolehlivosti pro podíl určité kategorie v podskupinách podle jiné proměnné nebo již existujících výsledků. Např. jednoduše dichotomicky: Volil (závislá proměnná) podle kategorií Křesťanská nábož. orientace (ano/ne; nezávislá p.) a porovnat, zda se hodnoty intervalového odhadu v podskupinách nepřekrývají. Přesnější je řešení pomocí CF samotného % rozdílu mezi těmito kategoriemi (p1-p2). → To lze spočítat ručně (viz dále) a nebo dosazením do SPSS jobíku G. Pryce [2002] http://www.spsstools.net/Syntax/Distributions/ProportionTestsAndCI.txt kde použijeme poslední (4.) test Large-sample Confidence Intervals for Comparing for two population proportions. Pokud spočítaný interval spolehlivosti rozdílu neprochází 0 (tj. nezasahuje nulu = v populaci není nulový), lze tvrdit, že % rozdíl subkategorií (p1-p2) je statisticky významný, tj. platí se zvolenou chybou pro celou populaci. Tento postup lze aplikovat i na kontingenční tabulku s více kategoriemi → postupně počítáme CI pro rozdíly vždy dvou hodnot/kategorií. Zde však nastává problém vícenásobného porovnání (viz dále).
Porovnání % rozdílu / podílů ve dvou populacích (dichotomické proměnné v kontingenční tabulce) We can compute confidence interval for proportion of specific value/category within subgroups or for already existing results. For example, dichotomised variables: Voted (dependent var) along categories of Religion (Christian/otherwise) (independent var) and to compare, whether interval estimates within categories of Religion overlap or not. More exact and easier it is via computing CF of % difference between the proportions/categories If the confidence interval of the proportion difference is not including 0 (i.e. it is not „zero“ within the whole population), we can assert, that % difference between the (sub)categories is statistically significant (at given p), i.e. it holds true with given statistical error for whole population. → You can compute it by hand (for formula see later) or using SPSS syntax routine by G. Pryce [2002] http://www.spsstools.net/Syntax/Distributions/ProportionTestsAndCI.txt use the last (4.) test Large-sample Confidence Intervals for Comparing for two population proportions. This method can be applied to a crosstabulation with more categories → step by step focusing on one by one value/category comparison.
Porovnání % rozdílu / podílů ve dvou populacích SPSS syntax prof. G Porovnání % rozdílu / podílů ve dvou populacích SPSS syntax prof. G. Pryce [2002] http://www.spsstools.net/Syntax/Distributions/ProportionTestsAndCI.txt Here we have to fill in results, e.g. from FREQ (univariate) or possibly CROSSTAB (bivariate). In fact there are four tests in this syntax. For comparing for two population proportions it is the fourth test Large-sample Confidence Intervals for Comparing for two population proportions. Fill in only values of n1, n2 and p1, p2, you can also choose CI (originally set to 90% CI) and decimals shown. *-------------------------------------------------------------------------------. * Large-sample Confidence Intervals for Comparing for two population proportions. * (see Moore and McCabe (2001) Intro to the Practice of Statistics, p. 602-604). *For the inverse normal computation, I use the approximation used by http://www.hpmuseum.org/software/67pacs/67ndist.htm adapted from Abramowitz and Stegun, Handbook of Mathematical Functions, National Bureau of Standards 1970. MATRIX. COMPUTE n1 = {1222}. /* Enter the first sample size here (change the number in curly brackets)*/ COMPUTE n2 = {1222}. /* Enter the second sample size here (change the number in curly brackets)*/ COMPUTE x1 = {958}. /* Enter the number of "successes" for sample 1 here (change the nb in curly brackets)*/ COMPUTE x2 = {1016}. /* Enter the number of "successes" for sample 2 here (change the nb in curly brackets)*/ COMPUTE CONFID = {0.95}. /* Enter the desired confidence level here */ *The remainder of the syntax calculates the Confidence Interval given the values for n and x which you have entered above. *NB you don't need to alter anything from here on. COMPUTE Q = 0.5 * (1-CONFID). COMPUTE A = ln(1/(Q**2)). COMPUTE T_ = SQRT(A). COMPUTE zstar = T_ - ((2.515517 + (0.802853*T_) + (0.010328*T_**2))/ (1 + (1.432788*T_) + (0.189269*T_**2) + (0.001308*T_**3))). COMPUTE p1hat = x1/n1. COMPUTE p2hat = x2/n2. COMPUTE SE_phat = SQRT(((p1hat*(1-p1hat))/n1) + (p2hat*(1-p2hat))/n2)). COMPUTE m = zstar * SE_phat. COMPUTE LOWER = (p1hat - p2hat) - m. COMPUTE UPPER = (p1hat - p2hat) + m. COMPUTE diffp1p2 = p1hat - p2hat. COMPUTE ANSWER = {n1, n2, diffp1p2, zstar, SE_phat, Lower, Upper}. PRINT ANSWER / FORMAT "F10.5" /Title = "Confidence Interval for Comparing 2 Proportions" / CLABELS = n1, n2, diffp1p2, zstar, SE, Lower, Upper. END MATRIX. Příklad: Ne-participace v NNO Sportovní kluby a Kulturní spolky [ISSP 2007, CR] Sport (q13_a) = 958 Kultura: (q13_b) = 1016 TOTAL = 1222. Výsledek: CI nezahrnuje 0 → rozdíl 4,7 % bodů je statisticky významný (na p < 5%). The output: Run MATRIX procedure: Confidence Interval for Comparing 2 Proportions n1 n2 diffp1p2 zstar SE Lower Upper 1222,00000 1222,00000 -,04746 1,96039 ,01592 -,07866 -,01626 ------ END MATRIX ----- And don't forget, if you use this script (e.g. in diploma thesis) you should credit it, cite: Gwilym Pryce 2002. Large-Sample Confidence Interval for a Single Population Proportion. Inference for Proportions. Available at: http://www.spsstools.net/Syntax/Distributions/ProportionTestsAndCI.txt.
nebo lze použít Webový kalkulátor pro % rozdíl Confidence Interval for the Difference Between Two Independent Proportions http://vassarstats.net/prop2_ind.html
Simultánní intervaly spolehlivosti pro četnosti Dosud jsme činili samostatné závěry, ale chceme-li zhodnotit několik četností zároveň, musíme zajistit, aby všechny parametry byly pokryty předem požadovanou spolehlivostí. Pro souběžný závěr o několika četnostech proto zpřísníme celkovou spolehlivost C na z α / S kde S = počet četnostní pro něž chceme simultánní intervaly spolehlivosti Např. pro 4 četnosti, při požadované α = 0,05: z α / 4 = z α / 0,0125 = 0,02497 tj. přibližně 2,5 Viz tabulky kritických hodnot standardního normálního testu pro simultánní testování. [Řehák, Řeháková 1986: 64-65]
Další možnosti využití Intervalu spolehlivosti
Standardizace kardinálních proměnných na z-skóre Užitečná transformace data pro porovnání proměnných měřených na různých škálách (rozpětí) Jak na to viz http://metodykv.wz.cz/AKD2_TransfZnaku1.ppt Dimenze pro-čtenářského klimatu a čtení v dětství v závislosti na vzdělání rodičů, průměry z-skórů, věková kohorta narozených 1974-1978 Příklad: dvě odlišné dimenze pro-čtenářského klimatu v rodině a čtení v dětství (3 průměry) podle vzdělání rodičů Závislé proměnné (dimenze pro-čtenářského klimatu a čtení) jsou spojité-kardinální a protože byly měřeny na škálách s odlišným rozpětím jsou standardizované na z-skóry, tj. mají stejnou metriku-rozsah (průměr =0 a StD=1) → můžeme porovnávat jejich relativní(!) intenzitu napříč vzdělanostními kategoriemi a to i uvnitř nich, nikoliv ale celkovou hodnotu jako takovou mezi sebou (tj. v třídění 1. stupně). nadprůměr Průměr škál (=0) ○ Dostupnost/nápodoba – Interakce/komunikace □ Četl/a v dětství podprůměr Zdroj: [Gorčíková, Šafr 2012: 75]
Intervaly spolehlivosti (CfI) v SPSS ? SPSS umí pouze interval spolehlivosti pro spojitou proměnnou tj. průměr (např. EXPLORE) v OLS regresi pro regresní koeficient B, v logistické regresi pro exp(B) nicméně spočítáním standardní chyby odhadu (např. pro procento či korelační koeficient) a dosazením do příslušných vzorců, lze CfI snadno spočítat (viz dále) Alternativně lze použít jobíků nebo skripty pro úpravu výstupů - pro % v třídění 1.st. viz http://www.acrea.cz/skripty-interval-spolehlivosti-cetnosti.htm Anebo spočítat si to mimo SPSS …
Standardní chyba a intervaly spolehlivosti pro další parametry (korelační koeficient, medián, rozdíl podílů (%), …)
Standardní chyba a CI korelačního koeficientu (v SPSS) SE sice není v proceduře CORRELATION ale je v CROSSTABS CROSSTABS OC2011 BY PrijmD /FORMAT=NOTABLES /STATISTICS=CORR . CI (95%) pro R = 0,072 ± 1,96*0,023 = 0,072 ± 0,045 nebo 0,027 ← 0,072 → 0,117 CI pro korelační koeficient lze spočítat na http://vassarstats.net/rho.html
Výpočet standardní chyby pro průměr pro směrodatnou odchylku pro medián pro korelační koeficient nebo
Výpočet standardní chyby pro relativní četnost pro rozdíl dvou podílů p1- p2 Pro Odds Ratio SE = √ p(1 − p) / n Webový kalkulátor pro Interval spolehlivosti rozdílu mezi dvěma podíly (Confidence Interval for the Difference Between Two Independent Proportions) http://vassarstats.net/prop2_ind.html Více viz http://davidmlane.com/hyperstat/A111955.html http://www.miislita.com/information-retrieval-tutorial/a-tutorial-on-standard-errors.pdf
Jobíky pro Intervaly spolehlivosti v syntaxu SPSS pro relativní četnost (pravděpodobnost) http://www.spsstools.net/Syntax/Distributions/ProportionTestsAndCI.txt pro medián http://www.spsstools.net/Syntax/Distributions/Calculate95PercCIforTheMedian.txt
Reference Agresti, Alan. 2007. An Introduction to Categorical Data Analysis. Second Edition. Hoboken, New Jersey: JohnWiley & Sons, Inc. De Vaus, D. A. 1986. Surveys in Social Research. London: George Allen & Unwin (Publishers) Ltd. Řehák, J., B. Řeháková. 1986. Analýza kategorizovaných dat v sociologii. Praha: Academia. Noelleová, E. (1963) 1968. Výzkum veřejného mínění. Praha: Nakladatelství Svoboda. Šafr J. (ed.) a kol. 2012. Mechanismy mezigenerační reprodukce nerovností. Praha: Sociologický ústav AV ČR, v.v.i.