Kvalita diagnostiky z pohledu (klasické) teorie testů

Kvalita diagnostiky z pohledu (klasické) teorie testů
Petr Blahuš Sekce metodologie České kinantropologické společnosti a Katedra základů kinantropologie a humanitních věd Univerzita Karlova, Fakulta tělesné výchovy a sportu

- diagnostické metodiky ne-nutně-vědecké,
Co je “diagnostika” ?? Konotace: v terapii, pedagogice, v teorii systémů, ve vědě Odlišit: - diagnostické metodiky ne-nutně-vědecké, pro praxi klinickou a pedagogickou - diagnostické metodiky vědecko-výzkumné pro zjišťování dat v empirickém výzkumu = prostředky vědecké metody „pozorování“

Diagnostikovaná vlastnost splňuje vědecké požadavky:
“výzkumná proměnná” ne-nutně-veličina, tj. ne nutně kvantitativní např. druh laterality (pravorukost-levorukost) Diagnostická kvalita ověřena mimo jiné i: souborem standardizačních charakteristik - indexů, pro, různé populační kategorie, účely atp ...

Metodologie vědy : - přímo pozorovatelná proměnná - teoreticko-konceptuální proměnná, slangově tzv. “teoretický konstrukt”

Přímo pozorovatelná proměnná, „indikátor”: operacionalizovaná
pomocí dílčí konkrétní a specifické procedury např. : - Unifit test, - měření systolického krevního tlaku, - otázka v dotazníku, - zařazení do kategorie po strukturovaném rozhovoru

Teoreticko-konceptuální proměnná, konstrukt
povahy syntetické, abstraktní a generické (indikátory “téhož druhu”), např. aerobní vytrvalost, předstartovní anxiózita, senzo-motorická koordinace, rovnovážná schopnost, extroverze, sebepojetí, kvalita života, zdravotně orientovaná zdatnost,

Příklad z klinické lékařské oblasti:
- inidikátor: symptom, příznak : horečka, zvětšená játra, nález v krvi, ... - koncept: syndrom, “obraz” nemoci : tyfus (salmonely či rickettsie a jejich toxiny jsou příčinou i symptomem tyfu, nikoli však chorobou samou, “celkovým onemocněním zvaným tyfus”)

- klasický model teorie testů,
Zprostředkované “slabé asociativní měření” = „měření“ konceptů pomocí indikátorů tj. modelování např. známé - model společných latentních faktorů, - IRT modely položkových odpovědí, . . . a nejstarší klasický - klasický model teorie testů,

Jakákoli výzkumná diagnostická metodika je “test”
Jak k problému přistupuje klasická teorie testů ? Jakákoli výzkumná diagnostická metodika je “test” Cíl teorie testů: zkvalitnění diagnostiky pomocí modelových vztahů mezi vlastnostmi testu

 délka testu - reliabilita - validita
Intuitivní příklady:  obtížnost - validita  reliabilita - validita  délka testu - reliabilita - validita  oprava validity na vliv nepřijatých uchazečů  validita proti efektivitě selekce Příklady obvyklých praktických úkolů:  maximalizace predikční validity pro přijímání a selekci uchazečů  optimální redukce a úspornost diagnostiky “test equating” - zajištění srovnatelnosti výsledků různých verzí testu atd.

“Psychometrické” vlastnosti testu:
reliabilita, validita objektivita, homogenita*, obtížnost, konzistence, délka, ekvivalence, čas, specifičnost, rychlost, generalizabilita dimenzionalita-komplexita, (* expertně hodnocená vlastnost)

Validita: ne-psychometrická - expertízně posuzovaná - obsahová (logická, věcná) teoreticko-konceptuální čili “konstruktová” a homogenita - “zřejmá” neboli “face” psychometrická - formálně vyčíslená - tradiční statistické metody: korelace, regrese - netradiční: stochastické modely, teorie informace aj.

Druhy psychometrické validity
latentní - manifestní faktorová (v modelu společných faktorů) diskriminační síla (v modelech IRT), konvergentní / diskriminantní (MTMM) vnitřní - vnější jednoduchá - složená přímá - “čistá” - inkrementální souběžná - predikční absolutní - diferenciální vnitřní vzájemná paramorfní

- metodou “stability, test-retest” (u paralelních testů)
Odhad reliability pro testy paralelně a tau-ekvivalentní - metodou “stability, test-retest” (u paralelních testů) - dělením, “split-half “ (paralelně-ekvivalentní části, “metoda konzistence”, nezaměňovat s konzistencí testu !!) - metodou “obsahové ekvivalence”- dva různé testy paralelně-ekvivalentní - metodou “dolní meze” (u tau-ekvivalentních testů): - přímo : Cronbachův koeficient ALFA - z faktorového modelu: McDonaldův OMEGA - vnitrotřídní korelací z ANOVA s nejméně dvojrozměrným designem a modelem typu „mixed s replikacemi“

Typy ekvivalence testů
u unidimenzionální homogení skupiny testů (od nejsilnější po nejvolnější typ ekvivalence): - paralelně-ekvivalentní - true-score ekvivalentní: - tau-ekvivalentní - kvazi-tau-ekvivalentní - kongenerické - unidimenzionální

změřená hodnota =přesná hodnota+ chyba
Indikátor = “test” Koncept = “to, co má test měřit” .. laická „definice“ validity Jak matematicky tento problém modeluje klasická teorie testů? Analogie Gaussova modelu chyb měření: změřená hodnota =přesná hodnota+ chyba

x   observed score x = true score  + discrepancy 
Terminologie teorie testů: pozorovaná hodnota = skutečná hodnota + diskrepance observed score x = true score  + discrepancy  x =   x   Empirický indikátor Nepozorovatelný koncept Diskrepance známá neznámá neznámá Ve výzkumné diagnostické praxi se případ absolutně nulové diagnostické diskrepance  téměř nikdy nevyskytuje.

 ... specifická přesná hodnota individuálního testu
Dvě pojetí nepozorovatelné skutečné hodnoty : 1)  ... specifická přesná hodnota individuálního testu např. ´přesná hodnota systolického krevního tlaku´  diagnostická chyba , jakoby „chyba měření“ diskrepance = chyba v důsledku ne-reliability testu u některých (!) testů můžeme výjimečně smysluplně (?) odhadnout  několika n opakováními 1, 2,..., n jako jejich průměr P P(x1, x2,.. . xn)    , tj. statistický odhad blížící se k neznámemu  .

 ... generická úroveň teoretického “konstruktu”
společného skupině testů, tj. indikátorů „téhož druhu“ např. ´úroveň senzo-motorické koordinace indikované několika různými testy´, pak  ... diskrepance hodnoty x daného testu od  coby úrovně “konstruktu” , společného skupině m testů x1, x2, ..., xm,  = směs chyby a specifičnosti testu

 = chyba konečného výsledku diagnostiky jednotlivce
U specifického  :  = chyba konečného výsledku diagnostiky jednotlivce V ní komplexně všechny vlivy, podle přísnosti standardizace : prostředí, chyby experimentátora, nestabilita atd. Např.: - počasí, vliv biologických cyklů, ... - nedostatečné zaškolení pro měření kožních řas - nejednoznačost instrukcí pro časový interval k přenesení krevních vzorků do chladničky - včetně přísnosti kalibrace termostatu v chladničce Nezaměňovat s technickou chybou přístroje jako článku v komplexu zdrojů ne-reliability např. přesnost analyzátoru plynů VO2 max  3% ,

Klasický model teorie testů x =  +  vede i k rozkladu rozptylu:
Sx2 = S2 + S2 . Soustava intuitivně i teoreticky zdůvodněných matematických axiómů modelu pak umožňuje zavést - empiricky smysluplných pojmů pro praxi, - vztahů = vzorců ke zkvalitnění diagnostiky Z nich některé nyní uvedeme i s příklady použití.

Střední- standardní diagnostická chyba
se intuitivně-logicky definuje jako směrodatná odchylka diskrepancí, S , tj. jako odmocnina rozptylu diskrepancí, jakoby analogie střední chyby „měření”  S

OBSAHOVĚ HOMOGENNÍ TESTY či
jejich opakovaná HOMOGENNÍ „MĚŘENÍ“ diagnostikují tutéž jim společnou vlastnost, tutéž proměnnou se skutečnými hodnotami  PARALELNĚ EKVIVALENTNÍ TESTY , zkráceně JEN: PARALELNÍ takové homogenní testy ve skupině diagnostikují jim společnou vlastnost  se stejnou střední diagnostickou chybou S

Koeficient diagnostické reliability
(“spolehlivosti”) Rel x = S2 / Sx2 tj. podíl, proporce neznámého rozptylu skutečných hodnot ku rozptylu pozorovaných možno jen zhruba odhadnout jako korelaci dvou paralelních x , x´, - buď různých paralelních testů x , x´ - nebo paralelních měření x , x´ týmž testem

Praktické stanovení střední diagnostické chyby:
Známe-li ze standardizačních studií reliabilitu Relx a směrodatnou odchylku u dané populace, vypočteme S = Sx Ilustrace: Reliabilita “měření systolického krevního tlaku“ 0,81 směrodatná odchylka v kategorii pacientů mmHg střední diagnostická chyba je S = 5 .(1- 0,81) = 5 .0,09 = 5 . 0,3 = 1,5 mmHg

Střední a přibližně mezní diagnostická chyba:
Při přibližně normálním rozložení: a) “střední“ chyba  S tzv. „68%-ní“ chyba znamená, že nebude překročena ve více než 32% individuálních hodnocení b) tzv. “95%-ní chyba” by neměla být překročena ve více než v “zanedbatelném” (?) počtu 5% procent případů, je tzv. přibližná mezní chyba max   2.S , Ve výše uvedeném příkladu max   3 mmHg

Kritický rozdíl dvou výsledků
U normálního rozdělění při volbě 95%-ní chyby . rozdíl či přírůstek, který překračuje chyby diagnostikování stanovíme přibližně  xa - xb krit = 1,4 . max Např. zlepšení či zhoršení krevního tlaku je teprve rozdíl větší než 1, = 4,2 mmHg

Reliabilita = „nutná podmínka validity”- a tedy:
jaká je maximální možná validita testu, známe-li jeho reliabilitu? a) Nejvyšší validita testu x k jakémukoli kritériu-účelu y nemůže převýšit odmocninu spolehlivosti testu: maximum  rxy = Např. při Relx = 0,64 je maximum validity 0,80. b) Ani kritérium y nemá reliabilitu Rel y = 1, a proto maximum  rxy =

c) „Disatenuace“ validity
Při validitě x ku y , např. rxy = 0,48, a reliabilitách Rel x = 0,64 a Rel y = 0,81 : jaká by byla validita, kdyby byly x a y diagnostikovány absolutně bez chyb ? rTxTy= rxy/ ( ) = 0,48 / (0,8 . 0,9) = 0,67 „Disatenuovaná” validita 0,67 : - maximální dosažitelná zlepšením reliability - rTxTy1... testy jsou kongenericky ekvivalentní

Vliv délky testu na spolehlivost Spearmanův-Brownův S-B vzorec :
Rel(nx) = n Relx / [1 + (n-1) Relx ] pro test, jehož části jsou paralelně ekvivalentní Je-li test x vnitřně paralelní a s reliabilitou 0,60, prodloužení n = 4-krát: Rel(4x) = 4. 0,6 / [1 + (4-1).0,6] = = 2,4 / 2,8 = 0,86, pokud 4-násobné prodloužení je prakticky únosné.

Použití S-B na “split-half” odhad reliability:
- test rozdělíme na části, u každé dílčí výsledek, - dilčí výsleky rozdělíme na “sudé” a “liché”, - jsou-li paralelně ekvivalentní, - spočítáme jejich korelaci jako odhad reliabity.. Jde o reliabilitu mezi “polovinami” původního testu, proto použijeme S-B pro dvojnásobný test. . Příklad: Test sed-leh 2 minuty rozdělíme po 10-sec. intervalech na 12 častí, sečteme počet cyklů v lichých a v sudých intervalech, jejich korelační koeficient pak opravíme na délku n = 2.

Vliv délky testu na validitu
Vyšší reliabilita umožňuje zlepšit validitu - tuto potencialitu lépe odhadneme u vnitřně paralelního testu pomocí vzorce: r(nx) y = rxy /

PREDIKČNÍ VALIDITA - problémy:
- oprava zkreslené validity vzhledem k odmítnutým uchazečům rxy = 1 / - validita vs. efektivita selekce

Kvalita diagnostiky z pohledu (klasické) teorie testů

Podobné prezentace

Prezentace na téma: "Kvalita diagnostiky z pohledu (klasické) teorie testů"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

Kvalita diagnostiky z pohledu (klasické) teorie testů

Podobné prezentace

Prezentace na téma: "Kvalita diagnostiky z pohledu (klasické) teorie testů"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář