Klasická testová teorie Validita – a co to vlastně měří?

Klasická testová teorie Validita – a co to vlastně měří?
PSY 479 PSYCHOMETRIKA

Validita I Validita = shoda mezi nástrojem a měřeným rysem; obsahová charakteristika „Validita“ (obdobně jako reliabilita) je pouze souhrnným pojmem pro velkou skupinu různých zdrojů „důkazů o validitě“ Nástroj je v nějakém ohledu reliabilní -> tedy něco měří. (Protože je konzistentní, stabilní, ...) Ale co? E. G. Boring „Inteligence je to, co měří test inteligence.“ Reliabilita sama nezajišťuje validitu, je pro ni však nezbytná. Aspekty validity (zdroje důkazů): Obsahová: shoda mezi metodou a účelem metody (v teoretické rovině) face validity, sample validity, factor validity Emipirická: shoda mezi testovým skórem (výsledkem) a vnějším kriteriem predictive, concurrent, incremental, differencial Je shoda mezi výsledkem měření a „realitou“? Nebo alespoň mezi metodami? Je tedy měření informačně hodnotné? Kostruktová: shoda metody (dimenzí metody) s teorií Reliabilita je pohled do metody, validita je pohled ven z metody. (c) Jan Širůček

Důkazy obsahové validity I
Face validity: zjevná vs. zdánlivá Test měří právě to, co je v něm na první pohled vidět, pozná to i laik… Na první pohled se zdá, že test měří ... , ale měří ... Je běžné užívat zejména WAIS (v.) jako projektivní metodu u psychiatrických pacientů Jakýkoliv výkonnostní test může posloužit při troše snahy jako test zvládání stresové situace, úzkosti Tedy: využití existence více zdrojů systematického rozptylu v položkách Současně ovšem problém systematického zkreslení Social desirability Faktor „hodnocení“ (viz Osgood, sémantický diferenciál) je přítomný téměř ve všech posuzovacích škálách jako „g“ U výkonnostních metod je to přítomnost např. časového omezení (zavádí faktor rychlosti), percepční charakteristiky atd. z metodologického hlediska se jedná o intervenující proměnnou. Užití testu k jinému účelu, než jeho autor zamýšlel, se považuje za porušení autorských práv.

Důkazy obsahové validity II
Sample validity (výběrová...) Vlastní obsahová validita Dána reprezentativností výběru položek z domény Expertní posouzení atd.; konzistence posuzovatelů: koeficient konkordace (Place de la Concorde = Náměstí Svornosti) Soulad s teorií danými pojmy v plné šíři Současně princip reliability v některých kvalitativních paradigmatech Faktorová validita (Historický) přechod k vícerozměrnému pojetí... Inteligence, Sperman vs. Thurstone Odpovídá (korelační/faktorová) struktura skórů získaných na populaci teoretickým předpokladům? Problém reifikace (latentní proměnné jsou jen myšlené, odvozené... Stejně tak IQ je odvozené... Inteligence/temperament/... jsou tedy pouze shrnujícími výpověďmi, ne reálně existujícími charakteristikami ve smyslu např. fyzikálních rozměrů Tautologický postup; resp. artefakt metody – na populaci získám skory nějakou metodou a z jejich struktury odvozuji teorii. Opačným postupem je ověřena platnost. TEORIE NESMÍ BÝT NIKDY ZÁVISLÁ NA METODĚ.

Faktorová validita - příklad
Buss & Plomin: EAS II - (oldschool temperament, dotazník administrovaný matce 3 – 5letého dítěte), 5b Likertova škála Aktivita: G4 – je pořád v pohybu G7 – když se pohybuje, je spíš pomalejší – inverzně! G9 - hned jak se ráno probudí, je aktivní a čilé G13 - je velice energické G17 - dává přednost klidným hrám před aktivnějšími – inverzně! Emocionalita: G2 - snadno se rozpláče G6 - má sklon k citovým projevům G11 - často dělá zbytečný povyk a pláče G15 - snadno se rozčílí G19 - když se rozčílí, reaguje silně Sociabilita: G3 - je rádo s lidmi G5 - raději si hraje s druhými než samo G8 - snadno se spřátelí G10 - lidé pro něj znamenají větší podnět než cokoliv jiného G12 - je velice společenské G20 - k cizím lidem je velmi přátelské Shyness – plachost G1 - má sklon k plachosti G14 - dlouho mu trvá, než se sblíží s cizími lidmi G16 - je tak trochu samotářské totální outlayer G18 - když je samo, cítí se osamělé)

Faktorová validita – na úrovni položek

Faktorová validita – na úrovni skórů

Důkazy empirické (kriteriální) validity
Odpovídá zjištění z vyšetření metodou externímu kritériu? Např. Inteligence  známky, MMPI, ROR  Psychiatrická diagnosa dle MKN Metody: Korelace, t-test/neparametrický ekvivalent, shoda klasifikací v kontingenční tabulce (Chi2 + analýza residuálních hodnot)… Požadavky: Věrohodnost kritéria (hodnotnější je vždy kriterium získané z jiného typu zdroje) adekvátnost souboru (podmínkou je dostatečná variabilita zkoumaného rysu v souboru a shoda souboru s aplikační skupinou metody) Prediktivní validita Vztažena vůči kriteriu v budoucnosti (r, rank-order) Souběžná, paralelní validita (concurrent) Shoda s kriteriem v daném momentu (r, rank-order) => PV i SV trpí problémy analogickými se stabilitou v čase; poněkud simplexní. Požadavek na prediktivní validitu má spíše historické důvody (jedním z cílů vývojové psychologie je predikce) Nereliabilní metody nemohou vykazovat empirickou validitu

Inkremetální a diferenciální validita
Inkrementální validita: „přidaná hodnota metody“ Mějme dva testy a kritérium … T1, T2 a K Parciální korelace ... Korelace A-C „očištěná“ od společného rozptylu A-B a B-C Tedy: Kolik další informace přidává o kritériu test T2, poté co jsme již měřili testem T1? => platí de facto i pro položky v konceptu vnitřní konzistence: nemají-li vůči sobě položky inkremetální validitu, jsou (až na jednu) zbytečné, neb nic nového nenaměří. Diferenciální validita Schopnost metody diferencovat (srov. diferenciální diagnosa) rys od jemu „podobných“. Tedy požadavkem je naopak nízká korelace s negativně vymezeným kriteriem Je zřejmé, že se jedná o pouze doplňkový zdroj, užitečný jen ve speciálních případech. Je však vhodné prověřovat diferenciální validitu v jakémkoliv designu s více prediktory – jev multikolinearity zcela znehodnocuje platnost vícerozměrných (lineárních) analýz. K T2 T1

Proč konstruktová validita
Nic nového Cronbach & Meehl začátkem padesátých let Postupy prokazující empirickou validitu jsou zakotveny pouze metodově... „pure empirism“ Metody jsou však z teorií pouze odvozeny a jsou zatíženy nepřesnostmi (viz. teorém CTT, GT…) Tyto nepřesnosti se dále násobí Mějme test A korelující s kritériem X 0,7. Uspokojivé? Mějme test B ověřený pouze korelací s „kriteriálním“ testem A, a to 0,7. Uspokojivé? Navíc, ověřování validity klasickými empirickými postupy (kriteriální, obsahová, prediktivní, paralelní) postrádá komplexitu. Nevztahuje se k teorii, pouze k metodě. Tedy nutnost vyvinout postup komplexního testování souladu metody s teorií jako celkem.

Jak na konstruktovou validitu
Předpokládejme, že metoda skutečně měří distinktní rysy A B C. BF: extraverze, neuroticismus, přívětivost, svědomitost, otevřenost vůči zkušenosti Co je známo z dosavadní (prověřené) „teorie“ o oněch rysech? BF: že jsou platné v euroamerickém prostoru, že dimenze jsou víceméně nezávislé, že existuje shoda mezi self-report a informant-report, že jsou do jisté míry stabilní. Formulujeme hypotézy vyplývající z výše uvedeného a testujeme je s užitím metody, jejíž KV nás zajímá. Musí platit na všech příslušných národních vzorcích. Korelace dimenzí (mezi sebou) musí být redundantní (jsou-li, nemusíme už se zabývat ani diferenciální ani inkrementální validitou) MTMM (Multi-Trait Multi Method; Campbell a Fiske, konec 50ties): Korelace stejných dimenzí s-r a i-r musí být průkazné a věcně významné. Ostatní korelace v MTMM Matrix musí být redundantní. Musí být průkazná stabilita v čase. Jsou-li hypotézy vyvráceny... Test neměří daný konstrukt Teoretické předpoklady jsou (nebo se něco jiného)

Efektivní prediktivní/souběžná validita

Klasická testová teorie Validita – a co to vlastně měří?

Podobné prezentace

Prezentace na téma: "Klasická testová teorie Validita – a co to vlastně měří?"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

Klasická testová teorie Validita – a co to vlastně měří?

Podobné prezentace

Prezentace na téma: "Klasická testová teorie Validita – a co to vlastně měří?"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář