Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Validita a reliabilita: Chyby měření v datech ze sociálně-vědních výběrových šetření Mgr. Johana Chylíková Český sociálněvědní datový archiv, Sociologický.

Podobné prezentace


Prezentace na téma: "Validita a reliabilita: Chyby měření v datech ze sociálně-vědních výběrových šetření Mgr. Johana Chylíková Český sociálněvědní datový archiv, Sociologický."— Transkript prezentace:

1 Validita a reliabilita: Chyby měření v datech ze sociálně-vědních výběrových šetření Mgr. Johana Chylíková Český sociálněvědní datový archiv, Sociologický ústav AV ČR, v.v.i Český sociálněvědní datový archiv Sociologického ústavu AV ČR, v.v.i. Jilská 1, Praha 1, Česká republika;

2 Obsah přednášky Proces vytvoření dotazníkové položky Zdroje chyby měření Validita a reliabilita Typy validity Klasická testová teorie Metody odhadu reliability Systematické odchylky: split ballot Reliabilita škály v SPSS

3 Konceptualizace a operacionalizace Pořadí operací při tvoření měřícího nástroje: koncept - (konstrukt) – indikátor – operacionalizace – proměnné – otázka Koncept – popis a vymezení zkoumaného jevu Concepts by intuition: judgements, feelings, evaluations, norms and behaviors, physical states (age, gender, income, job) Concepts by postulation (constructs): ethnocentrism, racism, authoritarianism, integration, anomie,often composed of concepts-by- intuition

4 Chyba měření je vždy V procesu měření „koncept –(v) - indikátor- (r) - měření“ vznikají nepřesnosti – chyby validity a reliability. Pozorovaná hodnota nikdy není sto procent informace, kterou předpokládáme z konceptu.

5 Zdroje chyby měření: Škála odpovědi - response scale, různý počet bodů Formulace otázky, varianty odpovědi Kontext v dotazníku response styles (acquiscence, satysficing) Sociální desirabilita V mezinárodním komparativním výzkumu: Významové rozdíly, konotace v různých jazycích Rozdíly v překladu Rozdíly v interpretaci otázek v různých zemích

6 Validita a reliabilita validita = schopnost měřit koncept, který chceme měřit reliabilita = přesnost, konzistentnost měření reliabilita je jednou z podmínek validity

7 Validita a reliabilita

8 Pravý skór (T) vs měřená proměnná(X) Pro studium reliability a validity je zásadní rozlišovat mezi: proměnnou, kterou chceme měřit ( T ) a pozorovanou proměnnou ( X ) Faktické vs. postojové otázky 1) True value exists – error is deviation X-T Only possible for ‘factual questions’ (realistic true scores) “bias” concept often only used for this situation 2) In case of attitudes (subjective states): “true value is not known” (platonic true scores) => method effect (differences in method lead to differences in observed scores) One can only assess indirectly validity in context of measurement model in which relations between observed indicators and underlying latent variable (or construct) are specified

9 Typy validity Obsahová validita - zjevná Kriteriální validita - soulad s již existujícím kritériem (např. volební prognóza a výsledek voleb Konstruktová (teoretická) validita: soulad vztahů očekávaných v teorii a mezi naměřenými hodnotami indikátorů – konvergentní, diskriminační (korelace, faktorová analýza) – MTMM dále Externí validita Efekt metody – MTMM, split ballot, viz dále

10 Kriteriální validita Record check study – objektivní proměnné výstupy šetření jsou porovnávány s oficiálními údaji – kriminalita: počet nahlášených trestných činů, zdraví: počet návštěv lékaře, volby: účast ve volbách, volba strany. jejich užití není běžné. Jejich výsledky slouží k tomu, aby ukázaly, jak velké diskrepance mohou nastat ve výzkumu určitého fenoménu. USA: kontrola jednotlivých respondentů; předpokládá neanonymní výzkum a svolení k získání dodatečných informací od úřadů, nemocnic atd. Př. náhodný výběr z policejní databáze, pro každou oběť trestného činu informace o trestných činech. Oběť trestného činu vypovídá na otázky o trestných činech. Porovnání výpovědi s informacemi ze záznamů. Volební chování – nelze porovnávat skutečné výsledky voleb s výzkumy volebního chování před volbami, ke kterým chceme validizovat, možno porovnat pouze výpovědi o účasti v již proběhlých volbách. Problémy: nelze měřit over-reporting. Záznamy nejsou úplné, ani ony neposkytují plnou informaci.

11 Reliabilita Psychometrie, Lord, Nowick, 1969 Klasická testová teorie Od ní odvozeny metody odhadu reliability (viz dále)

12 Klasická teorie měření Y = T + E, resp. Var (Y) = Var (T) + Var (E), kde Y je naměřená hodnota na stupnici operacionalizovaného konstruktu a T skutečná hodnota vlastnosti, kterou ve skutečnosti měříme (konstrukt). E reprezentuje chybu měření. Základní předpoklady : vlastnosti náhodné chyby chyba E není závislá na hodnotě T, tj. r(E,T) = 0 chyba E neobsahuje systematické vychýlení, tj. střední hodnota E je rovna nule, E(E) = 0, což je logický požadavek na chybu, která se chová náhodně. při různých měřeních jsou chyby nekorelované.

13 Klasická teorie měření Reliabilitu můžeme vyjádřit jako poměr rozptylů skutečné hodnoty konstruktu a naměřené hodnoty rel (Y/T) = var (T) / var (Y), r(Y1,Y2) = var T / var (Y), Pro reliabilitu je podstatné, aby byl rozptyl E (viz Y = T + E )co nejmenší. Čím větší náhodná chyba, tím nižší reliabilita. Pro reliabilní měření je nutné eliminovat náhodnou chybu. Z výše uvedeného vychází metoda měření reliability test-retest, která předpokládá, že T se v průběhu času mezi prvním a druhým měřením nezmění.

14 Náhodné X systematické chyby Klasická teorie měření nepředpokládá vliv dalších, nenáhodných chyb – Obohacení reliability o vliv systematické chyby měření (inverzní k validitě) Classical model for random errors t → y ← e The measurement model with random (e) and systematic (u) errors. f → t → y ← e ↑ u

15 Modely vztahů mezi proměnnými pro určování reliability a validity Reliabilita: test-retest (dvě měření) Quasi simplex model (tři měření) Reliabilita + validita (measurement validity) True score MTMM model Mezipoložková reliabilita, konzistence škály: Cronbachovo Alfa Split half

16 Repeated measurement of the same persons Test retest Měření jedné otázky (indikátoru, položky) dvakrát na tom samém respondentovi. Měří reliabilitu. Viz klasická teorie měření (Lord, Novick 1968) rel (Y/X) = r 2 (Y,X) = r(Y i1, Y i2 ) Jiná notace: rel (X/T) = r 2 (X,T) = r(X,X') (T – true score, X, X´ změřené hodnoty

17 Test-retest Y i1 = X i + ε i1 Y i2 = X i + ε i2 Y i1 = obtained response for the i-th person at time 1 Y i2 = obtained response for the i-th person at time 2 X i = true value of the item for the i-th person ε i1 = response deviation from true value for the i-th person at time 1 ε i2 = response deviation from true value for the i-th person at time 2

18 Test-retest Předpoklady: E (ε i1 ) = E (ε i2 ) = 0 Druhé měření je přesnou replikou prvního měření (hodnota) latentní proměnná stojící v pozadí měřené proměnné se v čase, který uběhl mezi dvěma měřeními nezměnila Náhodné chyby jsou nekorelované Cov (ε i1, ε i2 )= 0 (riziko efektu paměti) Hodnota reliability test retest = korelace mezi měřeními v čase 1 a v čase 2 ( oprava oproti původní verzi slidu)

19 Multitrait multimethod Campbell, Fiske 1959, jeden konstrukt má tři latentní znaky (traits), Pro každý trait (T) jsou použity tři metody měření (M). Jeden respondent odpoví na 9 otázek. Na každou ze tří položek respondent odpoví třikrát za použití vždy jiné metody. Odhad validity, resp. efektu metody. Konvergentní a diskriminantní validita - položky měřící stejný znak by spolu měly korelovat silněji, než položky měřící jiný znak, avšak stejnou metodou Jak silně metoda měření ovlivňuje naměřené hodnoty?

20 MTMM Konstrukt: Postavení mužů a žen ve společnosti Latentní znak F1: Omezení placeného zaměstnání, Latentní znak F2 : Odpovědnost za děti a domácnost, Latentní znak F3 : Právo na zaměstnání.

21 F1M1 Žena by měla být připravena omezit svou placenou práci kvůli rodině. F2M1 Muži by měli přijmout stejnou odpovědnost za domov a děti jako ženy. F3M1 Když je málo pracovních míst, muži by měli mít větší právo na zaměstnání než ženy. Rozhodně souhlasím Spíše souhlasím Ani souhlas ani nesouhlas Spíše nesouhlasím Rozhodně nesouhlasím F1M2 Žena by neměla být nucena omezovat placenou práci kvůli rodině. F2M2 Ženy by měly mít větší odpovědnost za domov a děti než muži. F3M2 Když je málo pracovních míst, ženy by měly mít stejné právo na zaměstnání jako muži. Rozhodně souhlasím Spíše souhlasím Ani souhlas ani nesouhlas Spíše nesouhlasím Rozhodně nesouhlasím F1M3 Žena by měla být připravena omezit placenou práci kvůli rodině Žena by neměla být nucena omezovat placenou práci kvůli rodině. F2M3 Muži by měli přijmout stejnou odpovědnost za domov a děti jako ženy Ženy by měly mít větší odpovědnost za domov a děti než muži. F3M3 Když je málo pracovních míst, muži by měli mít větší právo na zaměstnání než ženy Když je málo pracovních míst, ženy by měly mít stejné právo na zaměstnání jako muži.

22 MTMM model

23 True Score MTMM Do modelu vztahů mezi měřenými a latentními proměnnými jsou přidány další proměnné, které umožňují zjistit reliabilitu měření TS MTMM model lze ve formě rovnic vyjádřit jako [Saris, Sattora, Coenders 2004]: [1] Y ij = r ij T ij + e ij kde i = 1;3 a j = 1;3 [2] T ij = v ij F i + m ij M j kde = 1;3 a j = 1;3

24 TS MTMM

25 Náhodné přiřazení měřícího nástroje respondentům ve vzorku split ballots Dotazníky: bias důsledkem použití otázky, formulace otázky -split sample, dvě odlišné verze otázky Do you think the US should forbid public speeches in favor uf communism? Y: 39,3% Do you think the US should allow public speeches in favor of communisms: N: 56,3% Nezjišťuje chybu měření absolutně, ale jen relativně. Zjistí jenom rozdíl, rovněž měření vlivu kontextu, pro postojové otázky Tazetelé: Může se použít rovněž pro studium chyb měření spojených s tazatelem – tazatelé mají rozdílné instrukce jak se chovat – rozdíl (rigidnější x flexibilnější komunikace)

26 split ballots Response: y ij = X i + M ij + ε ij y ij.... response obtained for the i-th person using the j-th method or form X i …. True value of the characteric for the i-th person M ij … effect on the response of the i-th person of using the j-th method ε ij … deviation for the i-th person from the average effect of the j-th method.

27 Reliabilita škály v SPSS ANALYZE - SCALE - RELIABILITY ANALYSIS... hodnoty - odpovědi na otázky/položky škály reliabilita: pozorovaná hodnota = pravdivá hodnota + chyba; (chyba = systematický chyba + náhodná chyba); čím menší chyba, tím lepší škála jak škála diskriminuje? jak položky zapadají do škály? celková hodnota testu pro škálu relace hodnoty každé položky a celkové hodnoty relace hodnot položek jednotlivé položky - deskriptivní statistiky: hodnoty, průměry, standardní odchylky, vztahy mezi položkami vztahy mezi položkami a celkovým skóre škály: Item - Total Statistics

28 míra vnitřní konzistence škály (měříci jednu dimenzi) průměrná korelace položek v rámci jedné škály, jestliže položky standardizovány (st.dev. = 1) nebo průměrná kovariance, když nejsou standardizovány interpretace jako korelace (hodnoty (nežádoucí -1 až) 0 až 1): mezi testovanou škálou a jinými možnými škálami měřícími stejnou věc sestavitelnými z hypotetické množiny položek mezi pozorovaným skóre (skóre obdrženým v testu) a pravdivým skóre (skóre za všech možných položek) 0, tzn. žádná shoda => pouze chybová položka; 1, tzn. úplná schoda => pouze pravdivá hodnota Cut-off criteria - běžná konvence: 0,6 použitelná, 0,7 adekvátní, 0,8 dobrá

29 negativní hodnoty (mezipoložkové korelace) - nekonzistentní kódování nebo více různých dimenzí hodnota závislá na početu položek: čím větší počet, tím větší reliabilita (obvyklý cíl: přiměřeně položek!, vysoká reliabilita) alpha if deleted: dopad jednotlivých položek na reliabilitu škály - odebrání položky z testu a sledování změny item - total: korelace položky s celkovou škálou - malá ( asi vyhodit R2: R2 položky predikované ze všech ostatních položek škály; čím větší, tím víc položka přispívá ke konzistenci škály (malé hodnoty - uvažovat o vyhození) KR20: koeficient alfa pro dichotomické položky (Kuder-Richardson) standardizované alfa pro položky (Spearman-Brown Coef., ne S-B split half): míra nepodobnosti rozptylu mezi položkami Raykovo rho: alternativní míra reliability Spearmanovo rho: alternativní míra spočítaná na základě pořadí (ordinální data)

30 Split half podstata: rozdělit škálu na dvě části a posouzení ekvivalence (korelací) mezi jednotlivými částmi SPSS: rozdělí test na dvě části podle pořadí, pokud lichý počet, první část je delší Cronbachovo alfa pro bě části & korelace mezi oběma částmi equal-length Spearman-Brown koef.: korelace mezi oběma částmi testu - odhad celkového koeficientu reliability equal/ unequal-length nevýhoda 1: závisí jak jsou rozděleny položky do částí (náhodně) nevýhoda 2: vyžaduje podobný rozptyl v obou částech testu nevýhoda 3: hledání problematické položky (nevíme, v které půlce) nepléct se Spearman-Brown standardizovaným alfa koef. Guttman split-half koef. modifikace S-B koef. - nevyžaduje shodu rozptylů Guttman split-half test: šest koeficientů doporučeno experimentovat pro dosažení rozdělení na dvě části s nejvyšší reliabilitou: nejlepší rozdělení to, kde jsou nejvíce zkorelované položky v obou částech

31 Použitá literatura: Řehák, Jan „Kvalita dat I.: Klasický model měření reliability a jeho praktický aplikační význam“. Sociologický časopis 34 (1): On-line: 984a5e16a11dd2ebcc0f_244_051REHAK.pdf 984a5e16a11dd2ebcc0f_244_051REHAK.pdf Saris, W. E., Gallhofer, I. N Design, evaluation, and analysis of questionnaires for survey research. Hoboken: John Wiley & Sons. Tourangeau, R., L.J. Rips, K. Rasinski The Psychology of Survey Response


Stáhnout ppt "Validita a reliabilita: Chyby měření v datech ze sociálně-vědních výběrových šetření Mgr. Johana Chylíková Český sociálněvědní datový archiv, Sociologický."

Podobné prezentace


Reklamy Google