Chyby měření v datech ze sociálně-vědních výběrových šetření Český sociálněvědní datový archiv Sociologického ústavu AV ČR, v.v.i. Jilská 1, 110 00 Praha 1, Česká republika; http://archiv.soc.cas.cz Chyby měření v datech ze sociálně-vědních výběrových šetření Mgr. Johana Chylíková Český sociálněvědní datový archiv, Sociologický ústav AV ČR, v.v.i
O čem bude přednáška: Problém vůbec něco změřit – chyby nevyhnutelné Konceptualizace chyb měření – teoretický rámec pro systematický popis chyb měření Jaké máme možnosti chyby zjistit? Metody, techniky a analytické přístupy k identifikaci chyb Omluva za mix Aj/Čj
Obsah přednášky: Výzkum prostřednictvím výběrového šetření: Teorie – koncepty – dotazník Validita Reliabilita Konceptualizace chyb (Groves): - Bias - Variance Total Survey Error (Groves) Techniky k měření chyby – Empirical estimation of survey measurement error - Kriteriální validita - Laboratorní výzkum a experimenty - Randomized assignment of measurement procedures to sample persons – split ballot (bias), interviewers (variance) Repeated measurement of the same person – test-retest, MTMM SQP – Survey Quality Prediction 2.0
Konceptualizace a operacionalizace Pořadí operací při tvoření měřícího nástroje: koncept - (konstrukt) – indikátor – operacionalizace – proměnné – otázka Koncept – popis a vymezení zkoumaného jevu Concepts by intuition: judgements, feelings, evaluations, norms and behaviors, physical states (age, gender, income, job) Concepts by postulation (constructs): ethnocentrism, racism, authoritarianism, integration, anomie,often composed of concepts-by-intuition Operacionalizace, Indikátory
Chyba měření je vždy V procesu měření „koncept –(v) - indikátor- (r) - měření“ vznikají nepřesnosti – chyby validity a reliability. Pozorovaná hodnota nikdy není 100 procent informace, kterou předpokládáme z konceptu. “Central to measurement error is the idea that there is no perfect relationship between the observed response and the underlying unobserved variable that serves to generate the response” (Bohrnstedt, 1983: 70)
True value of variable (T) vs measured variable (X) Pro studium chyb měření je zásadní rozlišovat mezi: proměnnou, kterou chceme měřit (the variable we want to measure (T)) a pozorovanou proměnnou (the observed variable (X) i.e. the measure for this variable) Factual vs. Attitudinal questions True value exists – error is deviation X-T Only possible for ‘factual questions’ (realistic true scores) “bias” concept often only used for this situation In case of attitudes (subjective states): “true value is not known” (platonic true scores) => method effect (differences in method lead to differences in observed scores) One can only assess indirectly validity in context of measurement model in which relations between observed indicators and underlying latent variable (or construct) are specified
Validita a reliabilita "Validitou se rozumí přesnost toho, co ve skutečnosti měříme vzhledem k tomu, co chceme měřit." Řehák 1998 „koncept –(v) - indikátor- (r) - měření“ Reliabilita "Reliabilitou měření se rozumí přesnost měření té vlastnosti, kterou ve skutečnosti měříme. Reliabilita charakterizuje přesnost měření konstruktu pomocí jeho konkrétní operacionalizace. Reliabilita je proto pojmem technickým, validita substantivním."
Validita a reliabilita
Klasická teorie měření Y = T + E, resp. Var (Y) = Var (T) + Var (E), kde Y je naměřená hodnota na stupnici operacionalizovaného konstruktu a T skutečná hodnota vlastnosti, kterou ve skutečnosti měříme (konstrukt). E reprezentuje chybu měření. Základní předpoklady : vlastnosti náhodné chyby chyba E není závislá na hodnotě T, tj. r(E,T) = 0 chyba E neobsahuje systematické vychýlení, tj. střední hodnota E je rovna nule, E(E) = 0, což je logický požadavek na chybu, která se chová náhodně. při různých měřeních jsou chyby nekorelované.
Klasická teorie měření Reliabilitu můžeme vyjádřit jako poměr rozptylů skutečné hodnoty konstruktu a naměřené hodnoty rel (Y/T) = var (T) / var (Y) , r(Y1,Y2) = var T / var (Y), Pro reliabilitu je podstatné, aby byl rozptyl E (viz Y = T + E )co nejmenší. Čím větší náhodná chyba, tím nižší reliabilita. Pro reliabilní měření je nutné eliminovat náhodnou chybu. Z výše uvedeného vychází metoda měření reliability test-retest, která předpokládá, že T se v průběhu času mezi prvním a druhým měřením nezmění.
Náhodné X systematické chyby Klasická teorie měření nepředpokládá vliv dalších, nenáhodných chyb – je neúplná. Classical model for random errors t → y ← e The measurement model with random (e) and systematic (u) errors. f → t → y ← e ↑ u
Sources of (systematic) measurement error: response scales (different scale points) wording of items - order of response categories context of question response styles (acquiscence, satysficing) Social desirability in cross-nation research: Natural language differences Unjustified differences in the translations Differences in interpretation of the questions in different countries
Total Survey Error V sociálně-vědní metodologii, zaměřené na výběrová šetření, existují dva základní přístupy k zajištění kvality dat: Redukovat chybu měření – důsledný trénink tazatelů, testování dotazníků, snahy o zvýšení návratnosti atd. Změřit chybu měření – vlivy všech subjektů designu odhadnout Nejlepší řešení – kombinace obou přístupů Nutnost vyčerpávajícím způsobem popsat všechny zdroje chyb měření – koncept TSE – Mean Square Error
Mean Square Error Teoretický koncept – nelze realizovat, tyto chyby existují ve skutečnosti, ale nelze je zjistit na 100 procent. Bias – fixed property of the design, objeví se v každé implementaci daného designu. Variance – exclusive for each implementation of a design, specifické pro konkrétní výzkum
Bias, variance Bias is the type of error which affects the statistic in all implementations of survey design, in that sense it is a constant error (e.g. all possible surveys using the same design might overestimate the mean years of education per person in the population). A variable error, measured by the variance of a statistic, arises because achived values differ over the units (e.g. sampled persons, interviewers used, questions asked) that are sources of the error. The concept of variable errors inherently requires the possibility of repeating the survey, with changes of units in the replication (e.g. different sample persons, different interviewers). If there were no possibility of such replication, the distinction between variable errors and biases does not exist.
Bias, variance Variable errors and biases are therefore connected; bias is the part of error common to all implementation of a survey design, and variable error is the part that is specific to each trial. Variable error – překlad do ČJ – ne „chyba proměnné“, ale „proměnlivá chyba“. Chyby validity – problém při deskripci populace, četnosti/hodnoty jsou níž/výš než jsou ve skutečnosti, over-report, under-report Chyby reliability – problém při modelování vztahů. Chyby rozptylu „zneviditelňují“ vztahy mezi proměnnými, nízká reliabilita snižuje korelace (viz tabulka v Řehák 1998). Vzhledem k tomu, že většina modelování ve statistice je založena na kovariancích/korelacích, způsobuje nízká reliabilita velice závažný problém.
Chyby chybějícího pozorování Chyby chybějícího pozorování (errors of non-observation) vznikají v důsledku toho, že některé jednotky nebyly zařazeny do výzkumu. chyba pokrytí - některé sociální skupiny jsou již předem vyloučeny z výzkumu, protože je není možné kontaktovat pro dotazování. Význam této chyby se zvětšuje, pokud se nezahrnuté jednotky zásadním způsobem liší od jednotek zahrnutých do výzkumu. chyba výpadků návratnosti (non-response error): unit non-response, item non-response, Význam chyby se zvětšuje, pokud se nezahrnuté jednotky zásadním způsobem liší od jednotek zahrnutých do výzkumu. výběrová chyba – statistická chyba, hodnoty získané ze vzorku se liší od hodnot v celé populaci.
Chyby pozorování Chyby pozorování jsou odchylkami od reálné hodnoty, které vznikají při samotném kontaktu tazatele (dotazníku) s respondentem. Measurement errors Zdrojem chyb: tazatel - ovlivnění respondenta (vědomé/nevědomé), fyzický vzhled, charakteristiky respondent - porozumění, paměť, SD dotazník - kontext, znění otázek mód sběru dat - rozdílné podmínky výzkumu
Techniky k měření chyby Techniky k měření chyby – Empirical estimation of survey measurement error Kriteriální validita Laboratorní výzkum a experimenty Randomized assignment of measurement procedures to sample persons – split ballot (bias), interviewers (variance) Repeated measurement of the same person – test-retest, MTMM
Models for assessing reliability and validity test-retest simplex model (three repetitions) congeneric model (multiple indicators) + validity (measurement validity) MTMM model
Laboratorní experimenty kvalitativní metodologický výzkum, psychologický přístup rozhovory tazatele s respondentem v laboratorním prostředí, nahrávány, natáčeny, detailně rozebírány „think alouds“ Výzkum - jak probíhá komunikace za různých podmínek – př. bez osobního kontaktu (F2F vs Telephone survey), - znění otázek, - porovnání formulací jednotlivých otázek, - vliv sociální desirability, vliv modu sběru dat (SAQ) výstup: jak respondenti rozumí otázkám, odhalení chyb v dotazníku. Zpravidla se testují konkrétní měřící nástroje (dotazníky), obecné poznatky se zpravidla neformulují. Jsou vhodné pro identifikaci příčin chyb měření Tyto techniky nejsou schopny odhadovat chybu měření Problém: nereálné podmínky. V laboratoři se dají podmínky kontrolovat, v realitě ne. Bogus pipeline, randomized response – vysoce experimentální techniky, etický problém, neužívány
Kriteriální validita Record check study – výstupy šetření jsou porovnávány s oficiálními údaji – kriminalita: počet nahlášených trestných činů, zdraví: počet návštěv lékaře, volby: účast ve volbách, volba strany. USA: kontrola jednotlivých respondentů; předpokládá neanonymní výzkum a svolení k získání dodatečných informací od úřadů, nemocnic atd. Př. náhodný výběr z policejní databáze, pro každou oběť trestného činu informace o trestných činech. Oběť trestného činu vypovídá na otázky o trestných činech. Porovnání výpovědi s informacemi ze záznamů.
Kriteriální validita Record check study = validizační studie – jejich užití není běžné. Jejich výsledky slouží k tomu, aby ukázaly, jak velké diskrepance mohou nastat ve výzkumu určitého fenoménu. Rozhodně není možné užívat takové postupy k validizaci všech výzkumů jako standardní součást výzkumu. Provedení validizačních studií je časově, organizačně a finančně náročné. Většinou bývají takto zkoumána citlivá témata – kriminalita, zdraví, intimní záležitosti člověka, volební chování, příjmy, tj. témata, o kterých respondenti vypovídají s velkou chybou. Volební chování – nelze porovnávat skutečné výsledky voleb s výzkumy volebního chování před volbami, ke kterým chceme validizovat, možno porovnat pouze výpovědi o účasti v již proběhlých volbách. Problémy: nelze měřit over-reporting. Záznamy nejsou úplné, ani ony neposkytují plnou informaci.
Randomized assignment of measurement procedures to sample persons 1. interviewers (variance) Šetření – pravděpodobnostní výběr – pravděpodobnostní přiřazení tazatelů – vznikají skupiny respondentů, kteří byly tázání stejným tazatelem/kou. Uvnitř skupin se hledají korelace hodnot proměnných – correlated response variance Pokud hodnoty uvnitř skupiny vysoce korelují, je patrný rozdílný vliv tazatelů na respondenty – interviewer variance – konkrétní (použití tazatelé) ovlivňují hodnoty proměnných – odchylka
Randomized assignment of measurement procedures to sample persons split ballots Dotazníky: bias důsledkem použití otázky, formulace otázky split sample, dvě odlišné verze otázky Do you think the US should forbid public speeches in favor uf communism? Y: 39,3% Do you think the US should allow public speeches in favor of communisms: N: 56,3% Nezjišťuje ale chybu měření, zjistí se jenom rozdíl, rovněž měření vlivu kontextu, pro postojové otázky Tazetelé: Může se použít rovněž pro studium chyb měření spojených s tazatelem – tazatelé mají rozdílné instrukce jak se chovat – rozdíl (rigidnější x flexibilnější komunikace)
split ballots Response: yij = Xi + Mij + εij yij .... response obtained for the i-th person using the j-th method or form Xi …. True value of the characteric for the i-th person Mij … effect on the response of the i-th person of using the j-th method εij … deviation for the i-th person from the average effect of the j-th method.
Repeated measurement of the same persons Test retest Měření jedné otázky (indikátoru, položky) dvakrát na tom samém respondentovi. Měří reliabilitu. Viz klasická teorie měření (Lord, Novick 1968) rel (Y/X) = r2(Y,X) = r(Yi1, Yi2) Jiná notace: rel (X/T) = r2(X,T) = r(X,X') (T – true score, X, X´ změřené hodnoty
Test-retest Yi1 = Xi + εi1 Yi2 = Xi + εi2 Yi1 = obtained response for the i-th person at time 1 Yi2 = obtained response for the i-th person at time 2 Xi = true value of the item for the i-th person εi1 = response deviation from true value for the i-th person at time 1 εi2 = response deviation from true value for the i-th person at time 2
Test-retest Předpoklady: E (εi1) = E (εi2) = 0 Measurement of the 2nd trial is an exact replicate of that on the first trial Underlying characteritic that is being measured has not changed between first and second trial for the person being measured. Errors are uncorrelated over trials Cov (εi1, εi2)= 0 (….. but memory) E (Yi1 - Yi2)2 = E (εi1 - εi2)2 - implyies that the squared difference of observations can yield estimates of error variance
Multitrait multimethod approach Jeden koncept je měřen třemi indikátory (items), Pro každý indikátor jsou použity tři metody měření. Jeden respondent odpoví na 9 otázek. Na každou ze tří položek respondent odpoví třikrát za použití vždy jiné metody. Výstup: matice kovariancí Odhad reliability i validity Structural equation modeling
MTMM Concept: Satisfaction Traits: Methods: On the whole, how satisfied are you with the present state of economy in Britain? Now think about the national government. How satisfied are you with the way it is doing its job? And on the whole, how satisfied are you with the way democracy works in Britain? Methods: (1)Very satisfied, (2) fairly satisfied, (3) fairly dissatisfied, (4) very dissatisfied Very dissatisfied 0 1 2 3 4 5 6 7 8 9 10 Very satisfied (1) Not at all satisfied, (2) satisfied, (3) rather satisfied, (4) very satisfied
MTMM matrix for three traits and three methods
MTMM In the classical MTMM matrix, an observed score yij is linear decomposed into three unobserved components: yij = viFi + mjMj + eij* yij : a measure of ith trait by jth method Fi : the ith trait Mj : jth method factor eij : random (residual) error The slope parameter vi can be considered the validity coefficients, and the slope parameter mj is the invalidity coefficients, This formulation makes explicit that some of the reliable variance is actually invalid since it is induced by the measurement instrument (or scale) used (Alwin, 1997, p. 328).
MTMM Odhad chyby měření (koeficientu variability a reliability) vychází z modelu vztahů mezi latentními a manifestními proměnnými Direct effects, indirect effects, spurious relations, joint effects Matice korelací (kovariancí) Pro stanovení vztahů v 3x3 MTMM modelu nutných 9 měření (as many correlations as unknown parameters) Degrees of freedom, residuals
Effects: direct, indirect, spurious, joint X Y X Z Y Z Z W X Y X Y
MTMM diagram
SQP – Survey Quality Prediction 2.0 Založeno na MTMM experimentech šetření European Social Survey Poskytuje informace o validitě a reliabilitě otázek z šetření Umožňuje získat odhad reliability a validity pro vámi vytvořenou otázky Funguje už i v češtině http://www.sqp.nl/
Použitá literatura: Groves, Robert M. 1989. Survey Errors and Survey Costs. Hoboken: John Wiley & Sons. Řehák, Jan. 1998. „Kvalita dat I.: Klasický model měření reliability a jeho praktický aplikační význam“. Sociologický časopis 34 (1): 51-60. On-line: http://sreview.soc.cas.cz/uploads/bb7535f9eabc9ba0d15b984a5e16a11dd2ebcc0f_244_051REHAK.pdf Saris, W. E., Gallhofer, I. N. 2007. Design, evaluation, and analysis of questionnaires for survey research. Hoboken: John Wiley & Sons. Tourangeau, R., L.J. Rips, K. Rasinski. 2000. The Psychology of Survey Response Trusinová, R. 2012. „Survey Quality Prediction 2.0 – program pro zjišťování kvality otázek v dotazníku“. Data a výzkum – SDA Info 6(2012/1): 94-100. On-line: http://dav.soc.cas.cz/uploads/b4c6f2fc9cf504dad34f90c7e62c74e391731a73_DaV12_1_p94_100.pdf
Děkuji za pozornost Johana.chylikova@gmail.com