Validita a reliabilita: Chyby měření v datech ze sociálně-vědních výběrových šetření Mgr. Johana Chylíková Český sociálněvědní datový archiv, Sociologický.

Slides:



Advertisements
Podobné prezentace
Chyby měření v datech ze sociálně-vědních výběrových šetření
Advertisements

Analytické metody výzkumu
Ukazatele kvality Metodika pro tvorbu a testování ukazatelů kvality zdravotních služeb - B.
Organizační legitimita: aplikace institucionální teorie a teorie závislosti na zdrojích v rámci výzkumu NNO Magdaléna Šťovíčková SOS FHS UK, 2013/2014.
Strategické otázky výzkumníka 1.Jaký typ výzkumu zvolit? 2.Na jakém vzorku bude výzkum probíhat? 3.Jaké výzkumné metody a techniky uplatnit?
Kapitola 1: Popisná statistika jednoho souboru2  Matematická statistika je věda, která se zabývá studiem dat vykazujících náhodná kolísání.  Je možno.
ČESKÝ STATISTICKÝ ÚŘAD | Na padesátém 81, Praha 10 | ŽIVOTNÍ PODMÍNKY ČESKÝCH DOMÁCNOSTÍ Michaela Brázdilová Šárka Šustová Tisková konference,
Období vzniku: duben _inovace_FG.9.48 Autor : Vladimír TesaříkČlověk a svět práce, finanční gramotnost, nové auto.
Připraveno s podporou programu Erasmus+ Evropské unie. Provázanost výsledků učení, vyučovacích a hodnoticích metod Zkušenosti ZČU Brno Praha.
Odborný výcvik ve 3. tisíciletí Tato prezentace byla vytvořena v rámci projektu.
Moje představa o koordinované rehabilitaci Bc. Václav KRÁSA Předseda NRZP ČR.
Význam diferenciálních rovnic převzato od Doc. Rapanta.
Základní škola Ústí nad Labem, Anežky České 702/17, příspěvková organizace Číslo projektu: CZ.1.07/1.4.00/ Název projektu: „Učíme lépe a moderněji“
9. SEMINÁŘ INDUKTIVNÍ STATISTIKA 2. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ.
Induktivní statistika
PŘESHRANIČNÍ VLIVY Gijs van Luyn InfoMil
Testování hypotéz Testování hypotéz o rozdílu průměrů
Interpolace funkčních závislostí
7. Statistické testování
Rozvoj zaměstnanosti ve vybraném podniku
Návod na tvorbu prezentace diplomové / bakalářské práce
Matematika 3 – Statistika Kapitola 4: Diskrétní náhodná veličina
Testování hypotéz vymezení základních pojmů
Evaluace předmětů studenty (Anketky)
Úloha bodového systému
Marketingový výzkum. Marketingový výzkum Organizace marketingového výzkumu Cíl výzkumu Typ výzkumu Příprava výzkumného projektu Sběr dat Analýza výsledků.
Faktorová analýza cíl faktorové analýzy základní pojmy, postup
Popisný (popis reality, jevu) Vztahový (vztah jevů, faktorů, činitelů)
Výběrové metody (Výběrová šetření)
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Sémantické aspekty katalogizace VI
Význam utkání v sportovních hrách
Evaluace a hodnocení Evaluace Autoevaluace ©.
Zobecněné rozdíly kvalitativního a kvantitativního výzkumu
Programovací jazyky Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Ing. Jitka Vlčková. Dostupné z Metodického portálu ISSN.
Logika a metody výběru vzorku
Oblast: Dobré životní podmínky zvířat
2. seminární úkol - projekt
RIZIKO.
Pedagogicko–psychologická diagnostika
Vykazování postupu nebo stavu
Základy zpracování geologických dat testování statistických hypotéz
Parametry polohy Modus Medián
SÁRA ŠPAČKOVÁ MARKÉTA KOČÍBOVÁ MARCELA CHROMČÁKOVÁ LUKÁŠ BARTOŠ B3E1
Míry asociace obecná definice – síla a směr vztahu
FSS MUNI, katedra SPSP Kvantitativní výzkum x118 Téma 11: Korelace
Kvadratické nerovnice
Digitální učební materiál
BIBS Informatika pro ekonomy přednáška 2
České školství v mezinárodním srovnání Stručné seznámení s vybranými ukazateli publikace OECD Education at a Glance 2010 Tisková konference 7.
PSY252 Statistická analýza dat v psychologii II
SIGNÁLY A LINEÁRNÍ SYSTÉMY
Číslicové měřící přístroje
Název školy: ZŠ Klášterec nad Ohří, Krátká 676 Autor: Mgr
RIZIKO.
XII. Binomické rozložení
Digitální gramotnost Informatické myšlení
Úvod do praktické fyziky
Teorie chyb a vyrovnávací počet 1
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
METODY PSYCHOLOGIE Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem.
SEM – speciální přístupy
Lineární regrese.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie chyb a vyrovnávací počet 1
Vzdělávání jako hlavní složka řízení lidských zdrojů
Teorie chyb a vyrovnávací počet 2
Teorie chyb a vyrovnávací počet 2
Slovní úlohy o společné práci − 3
Diagnostika dítěte předškolního věku
Transkript prezentace:

Validita a reliabilita: Chyby měření v datech ze sociálně-vědních výběrových šetření Mgr. Johana Chylíková Český sociálněvědní datový archiv, Sociologický ústav AV ČR, v.v.i Český sociálněvědní datový archiv Sociologického ústavu AV ČR, v.v.i. Jilská 1, Praha 1, Česká republika;

Obsah přednášky Proces vytvoření dotazníkové položky Zdroje chyby měření Validita a reliabilita Typy validity Klasická testová teorie Metody odhadu reliability Systematické odchylky: split ballot Reliabilita škály v SPSS

Konceptualizace a operacionalizace Pořadí operací při tvoření měřícího nástroje: koncept - (konstrukt) – indikátor – operacionalizace – proměnné – otázka Koncept – popis a vymezení zkoumaného jevu Concepts by intuition: judgements, feelings, evaluations, norms and behaviors, physical states (age, gender, income, job) Concepts by postulation (constructs): ethnocentrism, racism, authoritarianism, integration, anomie,often composed of concepts-by- intuition

Chyba měření je vždy V procesu měření „koncept –(v) - indikátor- (r) - měření“ vznikají nepřesnosti – chyby validity a reliability. Pozorovaná hodnota nikdy není sto procent informace, kterou předpokládáme z konceptu.

Zdroje chyby měření: Škála odpovědi - response scale, různý počet bodů Formulace otázky, varianty odpovědi Kontext v dotazníku response styles (acquiscence, satysficing) Sociální desirabilita V mezinárodním komparativním výzkumu: Významové rozdíly, konotace v různých jazycích Rozdíly v překladu Rozdíly v interpretaci otázek v různých zemích

Validita a reliabilita validita = schopnost měřit koncept, který chceme měřit reliabilita = přesnost, konzistentnost měření reliabilita je jednou z podmínek validity

Validita a reliabilita

Pravý skór (T) vs měřená proměnná(X) Pro studium reliability a validity je zásadní rozlišovat mezi: proměnnou, kterou chceme měřit ( T ) a pozorovanou proměnnou ( X ) Faktické vs. postojové otázky 1) True value exists – error is deviation X-T Only possible for ‘factual questions’ (realistic true scores) “bias” concept often only used for this situation 2) In case of attitudes (subjective states): “true value is not known” (platonic true scores) => method effect (differences in method lead to differences in observed scores) One can only assess indirectly validity in context of measurement model in which relations between observed indicators and underlying latent variable (or construct) are specified

Typy validity Obsahová validita - zjevná Kriteriální validita - soulad s již existujícím kritériem (např. volební prognóza a výsledek voleb Konstruktová (teoretická) validita: soulad vztahů očekávaných v teorii a mezi naměřenými hodnotami indikátorů – konvergentní, diskriminační (korelace, faktorová analýza) – MTMM dále Externí validita Efekt metody – MTMM, split ballot, viz dále

Kriteriální validita Record check study – objektivní proměnné výstupy šetření jsou porovnávány s oficiálními údaji – kriminalita: počet nahlášených trestných činů, zdraví: počet návštěv lékaře, volby: účast ve volbách, volba strany. jejich užití není běžné. Jejich výsledky slouží k tomu, aby ukázaly, jak velké diskrepance mohou nastat ve výzkumu určitého fenoménu. USA: kontrola jednotlivých respondentů; předpokládá neanonymní výzkum a svolení k získání dodatečných informací od úřadů, nemocnic atd. Př. náhodný výběr z policejní databáze, pro každou oběť trestného činu informace o trestných činech. Oběť trestného činu vypovídá na otázky o trestných činech. Porovnání výpovědi s informacemi ze záznamů. Volební chování – nelze porovnávat skutečné výsledky voleb s výzkumy volebního chování před volbami, ke kterým chceme validizovat, možno porovnat pouze výpovědi o účasti v již proběhlých volbách. Problémy: nelze měřit over-reporting. Záznamy nejsou úplné, ani ony neposkytují plnou informaci.

Reliabilita Psychometrie, Lord, Nowick, 1969 Klasická testová teorie Od ní odvozeny metody odhadu reliability (viz dále)

Klasická teorie měření Y = T + E, resp. Var (Y) = Var (T) + Var (E), kde Y je naměřená hodnota na stupnici operacionalizovaného konstruktu a T skutečná hodnota vlastnosti, kterou ve skutečnosti měříme (konstrukt). E reprezentuje chybu měření. Základní předpoklady : vlastnosti náhodné chyby chyba E není závislá na hodnotě T, tj. r(E,T) = 0 chyba E neobsahuje systematické vychýlení, tj. střední hodnota E je rovna nule, E(E) = 0, což je logický požadavek na chybu, která se chová náhodně. při různých měřeních jsou chyby nekorelované.

Klasická teorie měření Reliabilitu můžeme vyjádřit jako poměr rozptylů skutečné hodnoty konstruktu a naměřené hodnoty rel (Y/T) = var (T) / var (Y), r(Y1,Y2) = var T / var (Y), Pro reliabilitu je podstatné, aby byl rozptyl E (viz Y = T + E )co nejmenší. Čím větší náhodná chyba, tím nižší reliabilita. Pro reliabilní měření je nutné eliminovat náhodnou chybu. Z výše uvedeného vychází metoda měření reliability test-retest, která předpokládá, že T se v průběhu času mezi prvním a druhým měřením nezmění.

Náhodné X systematické chyby Klasická teorie měření nepředpokládá vliv dalších, nenáhodných chyb – Obohacení reliability o vliv systematické chyby měření (inverzní k validitě) Classical model for random errors t → y ← e The measurement model with random (e) and systematic (u) errors. f → t → y ← e ↑ u

Modely vztahů mezi proměnnými pro určování reliability a validity Reliabilita: test-retest (dvě měření) Quasi simplex model (tři měření) Reliabilita + validita (measurement validity) True score MTMM model Mezipoložková reliabilita, konzistence škály: Cronbachovo Alfa Split half

Repeated measurement of the same persons Test retest Měření jedné otázky (indikátoru, položky) dvakrát na tom samém respondentovi. Měří reliabilitu. Viz klasická teorie měření (Lord, Novick 1968) rel (Y/X) = r 2 (Y,X) = r(Y i1, Y i2 ) Jiná notace: rel (X/T) = r 2 (X,T) = r(X,X') (T – true score, X, X´ změřené hodnoty

Test-retest Y i1 = X i + ε i1 Y i2 = X i + ε i2 Y i1 = obtained response for the i-th person at time 1 Y i2 = obtained response for the i-th person at time 2 X i = true value of the item for the i-th person ε i1 = response deviation from true value for the i-th person at time 1 ε i2 = response deviation from true value for the i-th person at time 2

Test-retest Předpoklady: E (ε i1 ) = E (ε i2 ) = 0 Druhé měření je přesnou replikou prvního měření (hodnota) latentní proměnná stojící v pozadí měřené proměnné se v čase, který uběhl mezi dvěma měřeními nezměnila Náhodné chyby jsou nekorelované Cov (ε i1, ε i2 )= 0 (riziko efektu paměti) Hodnota reliability test retest = korelace mezi měřeními v čase 1 a v čase 2 ( oprava oproti původní verzi slidu)

Multitrait multimethod Campbell, Fiske 1959, jeden konstrukt má tři latentní znaky (traits), Pro každý trait (T) jsou použity tři metody měření (M). Jeden respondent odpoví na 9 otázek. Na každou ze tří položek respondent odpoví třikrát za použití vždy jiné metody. Odhad validity, resp. efektu metody. Konvergentní a diskriminantní validita - položky měřící stejný znak by spolu měly korelovat silněji, než položky měřící jiný znak, avšak stejnou metodou Jak silně metoda měření ovlivňuje naměřené hodnoty?

MTMM Konstrukt: Postavení mužů a žen ve společnosti Latentní znak F1: Omezení placeného zaměstnání, Latentní znak F2 : Odpovědnost za děti a domácnost, Latentní znak F3 : Právo na zaměstnání.

F1M1 Žena by měla být připravena omezit svou placenou práci kvůli rodině. F2M1 Muži by měli přijmout stejnou odpovědnost za domov a děti jako ženy. F3M1 Když je málo pracovních míst, muži by měli mít větší právo na zaměstnání než ženy. Rozhodně souhlasím Spíše souhlasím Ani souhlas ani nesouhlas Spíše nesouhlasím Rozhodně nesouhlasím F1M2 Žena by neměla být nucena omezovat placenou práci kvůli rodině. F2M2 Ženy by měly mít větší odpovědnost za domov a děti než muži. F3M2 Když je málo pracovních míst, ženy by měly mít stejné právo na zaměstnání jako muži. Rozhodně souhlasím Spíše souhlasím Ani souhlas ani nesouhlas Spíše nesouhlasím Rozhodně nesouhlasím F1M3 Žena by měla být připravena omezit placenou práci kvůli rodině Žena by neměla být nucena omezovat placenou práci kvůli rodině. F2M3 Muži by měli přijmout stejnou odpovědnost za domov a děti jako ženy Ženy by měly mít větší odpovědnost za domov a děti než muži. F3M3 Když je málo pracovních míst, muži by měli mít větší právo na zaměstnání než ženy Když je málo pracovních míst, ženy by měly mít stejné právo na zaměstnání jako muži.

MTMM model

True Score MTMM Do modelu vztahů mezi měřenými a latentními proměnnými jsou přidány další proměnné, které umožňují zjistit reliabilitu měření TS MTMM model lze ve formě rovnic vyjádřit jako [Saris, Sattora, Coenders 2004]: [1] Y ij = r ij T ij + e ij kde i = 1;3 a j = 1;3 [2] T ij = v ij F i + m ij M j kde = 1;3 a j = 1;3

TS MTMM

Náhodné přiřazení měřícího nástroje respondentům ve vzorku split ballots Dotazníky: bias důsledkem použití otázky, formulace otázky -split sample, dvě odlišné verze otázky Do you think the US should forbid public speeches in favor uf communism? Y: 39,3% Do you think the US should allow public speeches in favor of communisms: N: 56,3% Nezjišťuje chybu měření absolutně, ale jen relativně. Zjistí jenom rozdíl, rovněž měření vlivu kontextu, pro postojové otázky Tazetelé: Může se použít rovněž pro studium chyb měření spojených s tazatelem – tazatelé mají rozdílné instrukce jak se chovat – rozdíl (rigidnější x flexibilnější komunikace)

split ballots Response: y ij = X i + M ij + ε ij y ij.... response obtained for the i-th person using the j-th method or form X i …. True value of the characteric for the i-th person M ij … effect on the response of the i-th person of using the j-th method ε ij … deviation for the i-th person from the average effect of the j-th method.

Reliabilita škály v SPSS ANALYZE - SCALE - RELIABILITY ANALYSIS... hodnoty - odpovědi na otázky/položky škály reliabilita: pozorovaná hodnota = pravdivá hodnota + chyba; (chyba = systematický chyba + náhodná chyba); čím menší chyba, tím lepší škála jak škála diskriminuje? jak položky zapadají do škály? celková hodnota testu pro škálu relace hodnoty každé položky a celkové hodnoty relace hodnot položek jednotlivé položky - deskriptivní statistiky: hodnoty, průměry, standardní odchylky, vztahy mezi položkami vztahy mezi položkami a celkovým skóre škály: Item - Total Statistics

míra vnitřní konzistence škály (měříci jednu dimenzi) průměrná korelace položek v rámci jedné škály, jestliže položky standardizovány (st.dev. = 1) nebo průměrná kovariance, když nejsou standardizovány interpretace jako korelace (hodnoty (nežádoucí -1 až) 0 až 1): mezi testovanou škálou a jinými možnými škálami měřícími stejnou věc sestavitelnými z hypotetické množiny položek mezi pozorovaným skóre (skóre obdrženým v testu) a pravdivým skóre (skóre za všech možných položek) 0, tzn. žádná shoda => pouze chybová položka; 1, tzn. úplná schoda => pouze pravdivá hodnota Cut-off criteria - běžná konvence: 0,6 použitelná, 0,7 adekvátní, 0,8 dobrá

negativní hodnoty (mezipoložkové korelace) - nekonzistentní kódování nebo více různých dimenzí hodnota závislá na početu položek: čím větší počet, tím větší reliabilita (obvyklý cíl: přiměřeně položek!, vysoká reliabilita) alpha if deleted: dopad jednotlivých položek na reliabilitu škály - odebrání položky z testu a sledování změny item - total: korelace položky s celkovou škálou - malá ( asi vyhodit R2: R2 položky predikované ze všech ostatních položek škály; čím větší, tím víc položka přispívá ke konzistenci škály (malé hodnoty - uvažovat o vyhození) KR20: koeficient alfa pro dichotomické položky (Kuder-Richardson) standardizované alfa pro položky (Spearman-Brown Coef., ne S-B split half): míra nepodobnosti rozptylu mezi položkami Raykovo rho: alternativní míra reliability Spearmanovo rho: alternativní míra spočítaná na základě pořadí (ordinální data)

Split half podstata: rozdělit škálu na dvě části a posouzení ekvivalence (korelací) mezi jednotlivými částmi SPSS: rozdělí test na dvě části podle pořadí, pokud lichý počet, první část je delší Cronbachovo alfa pro bě části & korelace mezi oběma částmi equal-length Spearman-Brown koef.: korelace mezi oběma částmi testu - odhad celkového koeficientu reliability equal/ unequal-length nevýhoda 1: závisí jak jsou rozděleny položky do částí (náhodně) nevýhoda 2: vyžaduje podobný rozptyl v obou částech testu nevýhoda 3: hledání problematické položky (nevíme, v které půlce) nepléct se Spearman-Brown standardizovaným alfa koef. Guttman split-half koef. modifikace S-B koef. - nevyžaduje shodu rozptylů Guttman split-half test: šest koeficientů doporučeno experimentovat pro dosažení rozdělení na dvě části s nejvyšší reliabilitou: nejlepší rozdělení to, kde jsou nejvíce zkorelované položky v obou částech

Použitá literatura: Řehák, Jan „Kvalita dat I.: Klasický model měření reliability a jeho praktický aplikační význam“. Sociologický časopis 34 (1): On-line: 984a5e16a11dd2ebcc0f_244_051REHAK.pdf 984a5e16a11dd2ebcc0f_244_051REHAK.pdf Saris, W. E., Gallhofer, I. N Design, evaluation, and analysis of questionnaires for survey research. Hoboken: John Wiley & Sons. Tourangeau, R., L.J. Rips, K. Rasinski The Psychology of Survey Response