Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Petr Blahuš Kvalita diagnostiky z pohledu (klasické) teorie testů Sekce metodologie České kinantropologické společnosti a Katedra základů kinantropologie.

Podobné prezentace


Prezentace na téma: "Petr Blahuš Kvalita diagnostiky z pohledu (klasické) teorie testů Sekce metodologie České kinantropologické společnosti a Katedra základů kinantropologie."— Transkript prezentace:

1 Petr Blahuš Kvalita diagnostiky z pohledu (klasické) teorie testů Sekce metodologie České kinantropologické společnosti a Katedra základů kinantropologie a humanitních věd Univerzita Karlova, Fakulta tělesné výchovy a sportu

2 Co je “diagnostika” ?? Konotace: v terapii, pedagogice, v teorii systémů, ve vědě Od lišit: - diagnostické metodiky ne-nutně-vědecké, pro praxi klinickou a pedagogickou - diagnostické metodiky vědecko-výzkumné pro zjišťování dat v empirickém výzkumu = prostředky vědecké metody „pozorování“

3 Diagnostikovaná vlastnost splňuje vědecké požadavky: “výzkumná proměnná” ne-nutně-veličina, tj. ne nutně kvantitativní např. druh laterality (pravorukost-levorukost) Diagnostická kvalita ověřena mimo jiné i: souborem standardizačních charakteristik - indexů, pro, různé populační kategorie, účely atp...

4 Metodologie vědy : - přímo pozorovatelná proměnná - teoreticko-konceptuální proměnná, slangově tzv. “teoretický konstrukt”

5 Přímo pozorovatelná proměnná, „indikátor”: operacionalizovaná pomocí dílčí konkrétní a specifické procedury např. : - Unifit test, - měření systolického krevního tlaku, - otázka v dotazníku, - zařazení do kategorie po strukturovaném rozhovoru

6 Teoreticko-konceptuální proměnná, konstrukt povahy syntetické, abstraktní a generické (indikátory “téhož druhu”), např. aerobní vytrvalost, předstartovní anxiózita, senzo-motorická koordinace, rovnovážná schopnost, extroverze, sebepojetí, kvalita života, zdravotně orientovaná zdatnost,

7 Příklad z klinické lékařské oblasti: - inidikátor: symptom, příznak : horečka, zvětšená játra, nález v krvi,... - koncept: syndrom, “obraz” nemoci : tyfus (salmonely či rickettsie a jejich toxiny jsou příčinou i symptomem tyfu, nikoli však chorobou samou, “celkovým onemocněním zvaným tyfus”)

8 Zprostředkované “slabé asociativní měření” = „měření“ konceptů pomocí indikátorů tj. modelování např. známé - model společných latentních faktorů, - IRT modely položkových odpovědí,... a nejstarší klasický - klasický model teorie testů,

9 Jak k problému přistupuje klasická teorie testů ? Jakákoli výzkumná diagnostická metodika je “test” Cíl teorie testů: zkvalitnění diagnostiky pomocí modelových vztahů mezi vlastnostmi testu

10 Intuitivní příklady:  obtížnost - validita  reliabilita - validita  délka testu - reliabilita - validita  oprava validity na vliv nepřijatých uchazečů  validita proti efektivitě selekce Příklady obvyklých praktických úkolů:  maximalizace predikční validity pro přijímání a selekci uchazečů  optimální redukce a úspornost diagnostiky  “test equating” - zajištění srovnatelnosti výsledků různých verzí testu atd.

11 “Psychometrické” vlastnosti testu: reliabilita, validita objektivita, homogenita *, obtížnost, konzistence, délka, ekvivalence, čas, specifičnost, rychlost, generalizabilita dimenzionalita-komplexita, (* expertně hodnocená vlastnost)

12 Validita: ne-psychometrická - expertízně posuzovaná - obsahová (logická, věcná) teoreticko-konceptuální čili “konstruktová” a homogenita - “zřejmá” neboli “face” psychometrická - formálně vyčíslená - tradiční statistické metody: korelace, regrese - netradiční: stochastické modely, teorie informace aj.

13 Druhy psychometrické validity latentní - manifestní faktorová (v modelu společných faktorů) diskriminační síla (v modelech IRT), konvergentní / diskriminantní (MTMM) vnitřní - vnější jednoduchá - složená přímá - “čistá” - inkrementální souběžná - predikční absolutní - diferenciální vnitřní vzájemná paramorfní

14 Odhad reliability pro testy paralelně a tau-ekvivalentní - metodou “stability, test-retest” (u paralelních testů) - dělením, “split-half “ (paralelně-ekvivalentní části, “metoda konzistence”, nezaměňovat s konzistencí testu !!) - metodou “obsahové ekvivalence” - dva různé testy paralelně-ekvivalentní - metodou “dolní meze” (u tau-ekvivalentních testů): - přímo : Cronbachův koeficient ALFA - z faktorového modelu: McDonaldův OMEGA - vnitrotřídní korelací z ANOVA s nejméně dvojrozměrným designem a modelem typu „mixed s replikacemi“

15 Typy ekvivalence testů u unidimenzionální homogení skupiny testů (od nejsilnější po nejvolnější typ ekvivalence): - paralelně-ekvivalentní - true-score ekvivalentní: - tau-ekvivalentní - kvazi-tau-ekvivalentní - kongenerické - unidimenzionální

16 Indikátor = “test” Koncept = “to, co má test měřit”.. laická „definice“ validity Jak matematicky tento problém modeluje klasická teorie testů? Analogie Gaussova modelu chyb měření: změřená hodnota =přesná hodnota+ chyba

17 Terminologie teorie testů: pozorovaná hodnota = skutečná hodnota + diskrepance observed score x = true score  + discrepancy  x =  +  x   Empirický indikátor Nepozorovatelný koncept Diskrepance známá neznámá neznámá Ve výzkumné diagnostické praxi se případ absolutně nulové diagnostické diskrepance  téměř nikdy nevyskytuje.

18 Dvě pojetí nepozorovatelné skutečné hodnoty  : 1) ... specifická přesná hodnota individuálního testu např. ´přesná hodnota systolického krevního tlaku´ ... diagnostická chyba, jakoby „chyba měření“ diskrepance = chyba v důsledku ne-reliability testu u některých (!) testů můžeme výjimečně smysluplně (?) odhadnout  několika n opakováními 1, 2,..., n jako jejich průměr P P (x 1, x 2,... x n )   , tj. statistický odhad blížící se k neznámemu .

19 ... generická úroveň teoretického “konstruktu” společného skupině testů, tj. indikátorů „téhož druhu“ např. ´úroveň senzo-motorické koordinace indikované několika různými testy´, pak ... diskrepance hodnoty x daného testu od  coby úrovně “konstruktu”, společného skupině m testů x 1, x 2,..., x m,  = směs chyby a specifičnosti testu

20 U specifického  :  = chyba konečného výsledku diagnostiky jednotlivce V ní komplexně všechny vlivy, podle přísnosti standardizace : prostředí, chyby experimentátora, nestabilita atd. Např.: - počasí, vliv biologických cyklů,... - nedostatečné zaškolení pro měření kožních řas - nejednoznačost instrukcí pro časový interval k přenesení krevních vzorků do chladničky - včetně přísnosti kalibrace termostatu v chladničce Nezaměňovat s technickou chybou přístroje jako článku v komplexu zdrojů ne-reliability např. přesnost analyzátoru plynů VO 2 max  3%,

21 Klasický model teorie testů x =  +  vede i k rozkladu rozptylu: S x 2 = S  2 + S  2. Soustava intuitivně i teoreticky zdůvodněných matematických axiómů modelu pak umožňuje zavést - empiricky smysluplných pojmů pro praxi, - vztahů = vzorců ke zkvalitnění diagnostiky Z nich některé nyní uvedeme i s příklady použití.

22 Střední- standardní diagnostická chyba se intuitivně-logicky definuje jako směrodatná odchylka diskrepancí, S , tj. jako odmocnina rozptylu diskrepancí, jakoby analogie střední chyby „měření”  S 

23 OBSAHOVĚ HOMOGENNÍ TESTY či jejich opakovaná HOMOGENNÍ „MĚŘENÍ“ diagnostikují tutéž jim společnou vlastnost, tutéž proměnnou se skutečnými hodnotami  PARALELNĚ EKVIVALENTNÍ TESTY, zkráceně JEN: PARALELNÍ takové homogenní testy ve skupině diagnostikují jim společnou vlastnost  se stejnou střední diagnostickou chybou S 

24 Koeficient diagnostické reliability (“spolehlivosti”) Rel x = S  2 / S x 2 tj. podíl, proporce neznámého rozptylu skutečných hodnot ku rozptylu pozorovaných možno jen zhruba odhadnout jako korelaci dvou paralelních x, x´, - buď různých paralelních testů x, x´ - nebo paralelních měření x, x´ týmž testem

25 Praktické stanovení střední diagnostické chyby: Známe-li ze standardizačních studií reliabilitu Rel x a směrodatnou odchylku u dané populace, vypočteme S  = S x Ilustrace: Reliabilita “měření systolického krevního tlaku“ 0,81 směrodatná odchylka v kategorii pacientů 5 mmHg střední diagnostická chyba je S  = 5.  (1- 0,81) = 5.  0,09 = 5. 0,3 = 1,5 mmHg

26 Střední a přibližně mezní diagnostická chyba : Při přibližně normálním rozložení: a) “střední“ chyba  S  - tzv. „68%-ní“ chyba znamená, že nebude překročena ve více než 32% individuálních hodnocení b) tzv. “95%-ní chyba” by neměla být překročena ve více než v “zanedbatelném” (?) počtu 5% procent případů, je tzv. přibližná mezní chyba  max   2.S , Ve výše uvedeném příkladu  max   3 mmHg

27 Kritický rozdíl dvou výsledků U normálního rozdělění při volbě 95%-ní chyby. rozdíl či přírůstek, který překračuje chyby diagnostikování stanovíme přibližně  x a - x b  krit = 1,4.  max Např. zlepšení či zhoršení krevního tlaku je teprve rozdíl větší než 1,4. 3 = 4,2 mmHg

28 Reliabilita = „nutná podmínka validity” - a tedy : jaká je maximální možná validita testu, známe-li jeho reliabilitu? a) Nejvyšší validita testu x k jakémukoli kritériu-účelu y nemůže převýšit odmocninu spolehlivosti testu: maximum  r xy  = Např. při Relx = 0,64 je maximum validity 0,80. b) Ani kritérium y nemá reliabilitu Rel y = 1, a proto maximum  r xy  =

29 c) „Disatenuace“ validity Při validitě x ku y, např. r xy = 0,48, a reliabilitách Rel x = 0,64 a Rel y = 0,81 : jaká by byla validita, kdyby byly x a y diagnostikovány absolutně bez chyb ? r TxTy = r xy / ( ) = 0,48 / (0,8. 0,9) = 0,67 „Disatenuovaná” validita 0,67 : - maximální dosažitelná zlepšením reliability - r TxTy  1... testy jsou kongenericky ekvivalentní

30 Vliv délky testu na spolehlivost Spearmanův-Brownův S-B vzorec : Rel (nx) = n Rel x / [1 + (n-1) Rel x ] pro test, jehož části jsou paralelně ekvivalentní Je-li test x vnitřně paralelní a s reliabilitou 0,60, prodloužení n = 4-krát: Rel (4x) = 4. 0,6 / [1 + (4-1).0,6] = = 2,4 / 2,8 = 0,86, pokud 4-násobné prodloužení je prakticky únosné.

31 Použití S-B na “split-half” odhad reliability : - test rozdělíme na části, u každé dílčí výsledek, - dilčí výsleky rozdělíme na “sudé” a “liché”, - jsou-li paralelně ekvivalentní, - spočítáme jejich korelaci jako odhad reliabity.. Jde o reliabilitu mezi “polovinami” původního testu, proto použijeme S-B pro dvojnásobný test.. Příklad: Test sed-leh 2 minuty rozdělíme po 10-sec. intervalech na 12 častí, sečteme počet cyklů v lichých a v sudých intervalech, jejich korelační koeficient pak opravíme na délku n = 2.

32 Vliv délky testu na validitu Vyšší reliabilita umožňuje zlepšit validitu - tuto potencialitu lépe odhadneme u vnitřně paralelního testu pomocí vzorce: r (nx) y = r xy /

33 PREDIKČNÍ VALIDITA - problémy: - oprava zkreslené validity vzhledem k odmítnutým uchazečům r xy = 1 / - validita vs. efektivita selekce


Stáhnout ppt "Petr Blahuš Kvalita diagnostiky z pohledu (klasické) teorie testů Sekce metodologie České kinantropologické společnosti a Katedra základů kinantropologie."

Podobné prezentace


Reklamy Google