Kvalita diagnostiky z pohledu (klasické) teorie testů Petr Blahuš Sekce metodologie České kinantropologické společnosti a Katedra základů kinantropologie a humanitních věd Univerzita Karlova, Fakulta tělesné výchovy a sportu
- diagnostické metodiky ne-nutně-vědecké, Co je “diagnostika” ?? Konotace: v terapii, pedagogice, v teorii systémů, ve vědě Odlišit: - diagnostické metodiky ne-nutně-vědecké, pro praxi klinickou a pedagogickou - diagnostické metodiky vědecko-výzkumné pro zjišťování dat v empirickém výzkumu = prostředky vědecké metody „pozorování“
Diagnostikovaná vlastnost splňuje vědecké požadavky: “výzkumná proměnná” ne-nutně-veličina, tj. ne nutně kvantitativní např. druh laterality (pravorukost-levorukost) Diagnostická kvalita ověřena mimo jiné i: souborem standardizačních charakteristik - indexů, pro, různé populační kategorie, účely atp ...
Metodologie vědy : - přímo pozorovatelná proměnná - teoreticko-konceptuální proměnná, slangově tzv. “teoretický konstrukt”
Přímo pozorovatelná proměnná, „indikátor”: operacionalizovaná pomocí dílčí konkrétní a specifické procedury např. : - Unifit test, - měření systolického krevního tlaku, - otázka v dotazníku, - zařazení do kategorie po strukturovaném rozhovoru
Teoreticko-konceptuální proměnná, konstrukt povahy syntetické, abstraktní a generické (indikátory “téhož druhu”), např. aerobní vytrvalost, předstartovní anxiózita, senzo-motorická koordinace, rovnovážná schopnost, extroverze, sebepojetí, kvalita života, zdravotně orientovaná zdatnost,
Příklad z klinické lékařské oblasti: - inidikátor: symptom, příznak : horečka, zvětšená játra, nález v krvi, ... - koncept: syndrom, “obraz” nemoci : tyfus (salmonely či rickettsie a jejich toxiny jsou příčinou i symptomem tyfu, nikoli však chorobou samou, “celkovým onemocněním zvaným tyfus”)
- klasický model teorie testů, Zprostředkované “slabé asociativní měření” = „měření“ konceptů pomocí indikátorů tj. modelování např. známé - model společných latentních faktorů, - IRT modely položkových odpovědí, . . . a nejstarší klasický - klasický model teorie testů,
Jakákoli výzkumná diagnostická metodika je “test” Jak k problému přistupuje klasická teorie testů ? Jakákoli výzkumná diagnostická metodika je “test” Cíl teorie testů: zkvalitnění diagnostiky pomocí modelových vztahů mezi vlastnostmi testu
délka testu - reliabilita - validita Intuitivní příklady: obtížnost - validita reliabilita - validita délka testu - reliabilita - validita oprava validity na vliv nepřijatých uchazečů validita proti efektivitě selekce Příklady obvyklých praktických úkolů: maximalizace predikční validity pro přijímání a selekci uchazečů optimální redukce a úspornost diagnostiky “test equating” - zajištění srovnatelnosti výsledků různých verzí testu atd.
“Psychometrické” vlastnosti testu: reliabilita, validita objektivita, homogenita*, obtížnost, konzistence, délka, ekvivalence, čas, specifičnost, rychlost, generalizabilita dimenzionalita-komplexita, (* expertně hodnocená vlastnost)
Validita: ne-psychometrická - expertízně posuzovaná - obsahová (logická, věcná) teoreticko-konceptuální čili “konstruktová” a homogenita - “zřejmá” neboli “face” psychometrická - formálně vyčíslená - tradiční statistické metody: korelace, regrese - netradiční: stochastické modely, teorie informace aj.
Druhy psychometrické validity latentní - manifestní faktorová (v modelu společných faktorů) diskriminační síla (v modelech IRT), konvergentní / diskriminantní (MTMM) vnitřní - vnější jednoduchá - složená přímá - “čistá” - inkrementální souběžná - predikční absolutní - diferenciální vnitřní vzájemná paramorfní
- metodou “stability, test-retest” (u paralelních testů) Odhad reliability pro testy paralelně a tau-ekvivalentní - metodou “stability, test-retest” (u paralelních testů) - dělením, “split-half “ (paralelně-ekvivalentní části, “metoda konzistence”, nezaměňovat s konzistencí testu !!) - metodou “obsahové ekvivalence”- dva různé testy paralelně-ekvivalentní - metodou “dolní meze” (u tau-ekvivalentních testů): - přímo : Cronbachův koeficient ALFA - z faktorového modelu: McDonaldův OMEGA - vnitrotřídní korelací z ANOVA s nejméně dvojrozměrným designem a modelem typu „mixed s replikacemi“
Typy ekvivalence testů u unidimenzionální homogení skupiny testů (od nejsilnější po nejvolnější typ ekvivalence): - paralelně-ekvivalentní - true-score ekvivalentní: - tau-ekvivalentní - kvazi-tau-ekvivalentní - kongenerické - unidimenzionální
změřená hodnota =přesná hodnota+ chyba Indikátor = “test” Koncept = “to, co má test měřit” .. laická „definice“ validity Jak matematicky tento problém modeluje klasická teorie testů? Analogie Gaussova modelu chyb měření: změřená hodnota =přesná hodnota+ chyba
x observed score x = true score + discrepancy Terminologie teorie testů: pozorovaná hodnota = skutečná hodnota + diskrepance observed score x = true score + discrepancy x = + x Empirický indikátor Nepozorovatelný koncept Diskrepance známá neznámá neznámá Ve výzkumné diagnostické praxi se případ absolutně nulové diagnostické diskrepance téměř nikdy nevyskytuje.
... specifická přesná hodnota individuálního testu Dvě pojetí nepozorovatelné skutečné hodnoty : 1) ... specifická přesná hodnota individuálního testu např. ´přesná hodnota systolického krevního tlaku´ ... diagnostická chyba , jakoby „chyba měření“ diskrepance = chyba v důsledku ne-reliability testu u některých (!) testů můžeme výjimečně smysluplně (?) odhadnout několika n opakováními 1, 2,..., n jako jejich průměr P P(x1, x2,.. . xn) , tj. statistický odhad blížící se k neznámemu .
... generická úroveň teoretického “konstruktu” společného skupině testů, tj. indikátorů „téhož druhu“ např. ´úroveň senzo-motorické koordinace indikované několika různými testy´, pak ... diskrepance hodnoty x daného testu od coby úrovně “konstruktu” , společného skupině m testů x1, x2, ..., xm, = směs chyby a specifičnosti testu
= chyba konečného výsledku diagnostiky jednotlivce U specifického : = chyba konečného výsledku diagnostiky jednotlivce V ní komplexně všechny vlivy, podle přísnosti standardizace : prostředí, chyby experimentátora, nestabilita atd. Např.: - počasí, vliv biologických cyklů, ... - nedostatečné zaškolení pro měření kožních řas - nejednoznačost instrukcí pro časový interval k přenesení krevních vzorků do chladničky - včetně přísnosti kalibrace termostatu v chladničce Nezaměňovat s technickou chybou přístroje jako článku v komplexu zdrojů ne-reliability např. přesnost analyzátoru plynů VO2 max 3% ,
Klasický model teorie testů x = + vede i k rozkladu rozptylu: Sx2 = S2 + S2 . Soustava intuitivně i teoreticky zdůvodněných matematických axiómů modelu pak umožňuje zavést - empiricky smysluplných pojmů pro praxi, - vztahů = vzorců ke zkvalitnění diagnostiky Z nich některé nyní uvedeme i s příklady použití.
Střední- standardní diagnostická chyba se intuitivně-logicky definuje jako směrodatná odchylka diskrepancí, S , tj. jako odmocnina rozptylu diskrepancí, jakoby analogie střední chyby „měření” S
OBSAHOVĚ HOMOGENNÍ TESTY či jejich opakovaná HOMOGENNÍ „MĚŘENÍ“ diagnostikují tutéž jim společnou vlastnost, tutéž proměnnou se skutečnými hodnotami PARALELNĚ EKVIVALENTNÍ TESTY , zkráceně JEN: PARALELNÍ takové homogenní testy ve skupině diagnostikují jim společnou vlastnost se stejnou střední diagnostickou chybou S
Koeficient diagnostické reliability (“spolehlivosti”) Rel x = S2 / Sx2 tj. podíl, proporce neznámého rozptylu skutečných hodnot ku rozptylu pozorovaných možno jen zhruba odhadnout jako korelaci dvou paralelních x , x´, - buď různých paralelních testů x , x´ - nebo paralelních měření x , x´ týmž testem
Praktické stanovení střední diagnostické chyby: Známe-li ze standardizačních studií reliabilitu Relx a směrodatnou odchylku u dané populace, vypočteme S = Sx Ilustrace: Reliabilita “měření systolického krevního tlaku“ 0,81 směrodatná odchylka v kategorii pacientů 5 mmHg střední diagnostická chyba je S = 5 .(1- 0,81) = 5 .0,09 = 5 . 0,3 = 1,5 mmHg
Střední a přibližně mezní diagnostická chyba: Při přibližně normálním rozložení: a) “střední“ chyba S - tzv. „68%-ní“ chyba znamená, že nebude překročena ve více než 32% individuálních hodnocení b) tzv. “95%-ní chyba” by neměla být překročena ve více než v “zanedbatelném” (?) počtu 5% procent případů, je tzv. přibližná mezní chyba max 2.S , Ve výše uvedeném příkladu max 3 mmHg
Kritický rozdíl dvou výsledků U normálního rozdělění při volbě 95%-ní chyby . rozdíl či přírůstek, který překračuje chyby diagnostikování stanovíme přibližně xa - xb krit = 1,4 . max Např. zlepšení či zhoršení krevního tlaku je teprve rozdíl větší než 1,4 . 3 = 4,2 mmHg
Reliabilita = „nutná podmínka validity”- a tedy: jaká je maximální možná validita testu, známe-li jeho reliabilitu? a) Nejvyšší validita testu x k jakémukoli kritériu-účelu y nemůže převýšit odmocninu spolehlivosti testu: maximum rxy = Např. při Relx = 0,64 je maximum validity 0,80. b) Ani kritérium y nemá reliabilitu Rel y = 1, a proto maximum rxy =
c) „Disatenuace“ validity Při validitě x ku y , např. rxy = 0,48, a reliabilitách Rel x = 0,64 a Rel y = 0,81 : jaká by byla validita, kdyby byly x a y diagnostikovány absolutně bez chyb ? rTxTy= rxy/ ( ) = 0,48 / (0,8 . 0,9) = 0,67 „Disatenuovaná” validita 0,67 : - maximální dosažitelná zlepšením reliability - rTxTy1... testy jsou kongenericky ekvivalentní
Vliv délky testu na spolehlivost Spearmanův-Brownův S-B vzorec : Rel(nx) = n Relx / [1 + (n-1) Relx ] pro test, jehož části jsou paralelně ekvivalentní Je-li test x vnitřně paralelní a s reliabilitou 0,60, prodloužení n = 4-krát: Rel(4x) = 4. 0,6 / [1 + (4-1).0,6] = = 2,4 / 2,8 = 0,86, pokud 4-násobné prodloužení je prakticky únosné.
Použití S-B na “split-half” odhad reliability: - test rozdělíme na části, u každé dílčí výsledek, - dilčí výsleky rozdělíme na “sudé” a “liché”, - jsou-li paralelně ekvivalentní, - spočítáme jejich korelaci jako odhad reliabity.. Jde o reliabilitu mezi “polovinami” původního testu, proto použijeme S-B pro dvojnásobný test. . Příklad: Test sed-leh 2 minuty rozdělíme po 10-sec. intervalech na 12 častí, sečteme počet cyklů v lichých a v sudých intervalech, jejich korelační koeficient pak opravíme na délku n = 2.
Vliv délky testu na validitu Vyšší reliabilita umožňuje zlepšit validitu - tuto potencialitu lépe odhadneme u vnitřně paralelního testu pomocí vzorce: r(nx) y = rxy /
PREDIKČNÍ VALIDITA - problémy: - oprava zkreslené validity vzhledem k odmítnutým uchazečům rxy = 1 / - validita vs. efektivita selekce