Kvalita diagnostiky z pohledu (klasické) teorie testů

Slides:



Advertisements
Podobné prezentace
Analýza experimentu pro robustní návrh
Advertisements

kvantitativních znaků
Testování statistických hypotéz
Odhady parametrů základního souboru
Sociologie – metody a techniky sociologického výzkumu
Cvičení 6 – 25. října 2010 Heteroskedasticita
ZÁKLADY EKONOMETRIE 7. cvičení Heteroskedasticita
Výzkum (pedagogického zhodnocení) volného času
Rozbory přesnosti v jednotlivých fázích vytyčení
Mgr. Alena Lukáčová, Ph.D., Dr. Ján Šugár, CSc.
Statistika Vypracoval: Mgr. Lukáš Bičík
Teorie psychodiagnostiky a psychometrie
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
PhDr. Dana Bernardová, Ph.D.
Odhady parametrů základního souboru
Vlastnosti motorických testů a baterií
VLASTNOSTI MOTORICKÝCH TESTŮ Oddělení antropomotoriky, rekreologie a metodologie Katedra kinantropologie, humanitních věd a managementu sportu © 2009 FTVS.
Principy konstrukce norem a základní statistické pojmy
Diagnostické metody ve speciální pedagogice - úvod do diagnostiky
MOTORICKÉ TESTY A TESTOVÉ SESTAVY
Některé aspekty predikce úspěšnosti jedinců ve sportovních hrách s míčem Katedra kinantropologie a základů humanitních věd FTVS UK Praha Šárka Honsová.
HODNOCENÍ ROZDÍLŮ VÝKONŮ Oddělení antropomotoriky, rekreologie a metodologie Katedra kinantropologie, humanitních věd a managementu sportu © 2010 FTVS.
Lineární regresní analýza
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
DKV část 31 Design kvantitativního výzkumu 4. část ( ) Jiří Šafr UK FHS Historická sociologie (LS 2010)
Experimentální fyzika I. 2
Pohled z ptačí perspektivy
Metrologie   Přednáška č. 5 Nejistoty měření.
MATEMATICKÁ STATISTIKA
Teorie psychodiagnostiky a psychometrie
Hodnocení přesnosti měření a vytyčování
Praktikum 4c: Tabulky, baterie otázek 16/5/08. Tabulky - metoda popisu dat.
Masarykova univerzita Fakulta sociálních studií PSY252 Statistická analýza dat II Seminář 7 - Reliabilita.
Základy pedagogické metodologie
Biostatistika 1. přednáška Aneta Hybšová
PSY717 – statistická analýza dat
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Aplikovaná statistika 2. Veronika Svobodová
1. cvičení
Postup při empirickém kvantitativním výzkumu
Inferenční statistika - úvod
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
Bc. Jaromír Šetek VNÍMÁNÍ ZEMĚ PŮVODU ZNAČKY A ZEMĚ PŮVODU PRODUKTU VEDOUCÍ PRÁCE: Ing. Pavel Štrach, Ph.D. et Ph.D.
Statistické metody pro prognostiku Luboš Marek Fakulta informatiky a statistiky Vysoká škola ekonomická v Praze.
Název školy Gymnázium, střední odborná škola, střední odborné učiliště a vyšší odborná škola, Hořice Číslo projektu CZ.1.07/1.5.00/ Název materiálu.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Varianty výzkumu Kroky výzkumu Výběrový soubor
Kritéria kvality metod a výzkumného šetření
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
Principy testování a měření
- váhy jednotlivých studií
Co se dá změřit v psychologii a pedagogice?
Odhady parametrů základního souboru
Induktivní statistika
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
Název: Chyby měření Autor: Petr Hart, DiS.
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
Vymezení normality.
Statistika a výpočetní technika
Plánování přesnosti měření v IG Úvod – základní nástroje TCHAVP
Induktivní statistika
Vymezení normality.
Základy statistiky.
Metody pedagogiky.
Základy popisné statistiky
Princip max. věrohodnosti - odhad parametrů
F-Pn-P062-Odchylky_mereni
Přednáška 1 Prof. PhDr. I. Čermák,CSc.
Transkript prezentace:

Kvalita diagnostiky z pohledu (klasické) teorie testů Petr Blahuš Sekce metodologie České kinantropologické společnosti a Katedra základů kinantropologie a humanitních věd Univerzita Karlova, Fakulta tělesné výchovy a sportu

- diagnostické metodiky ne-nutně-vědecké, Co je “diagnostika” ?? Konotace: v terapii, pedagogice, v teorii systémů, ve vědě Odlišit: - diagnostické metodiky ne-nutně-vědecké, pro praxi klinickou a pedagogickou - diagnostické metodiky vědecko-výzkumné pro zjišťování dat v empirickém výzkumu = prostředky vědecké metody „pozorování“

Diagnostikovaná vlastnost splňuje vědecké požadavky: “výzkumná proměnná” ne-nutně-veličina, tj. ne nutně kvantitativní např. druh laterality (pravorukost-levorukost) Diagnostická kvalita ověřena mimo jiné i: souborem standardizačních charakteristik - indexů, pro, různé populační kategorie, účely atp ...

Metodologie vědy : - přímo pozorovatelná proměnná - teoreticko-konceptuální proměnná, slangově tzv. “teoretický konstrukt”

Přímo pozorovatelná proměnná, „indikátor”: operacionalizovaná pomocí dílčí konkrétní a specifické procedury např. : - Unifit test, - měření systolického krevního tlaku, - otázka v dotazníku, - zařazení do kategorie po strukturovaném rozhovoru

Teoreticko-konceptuální proměnná, konstrukt povahy syntetické, abstraktní a generické (indikátory “téhož druhu”), např. aerobní vytrvalost, předstartovní anxiózita, senzo-motorická koordinace, rovnovážná schopnost, extroverze, sebepojetí, kvalita života, zdravotně orientovaná zdatnost,

Příklad z klinické lékařské oblasti: - inidikátor: symptom, příznak : horečka, zvětšená játra, nález v krvi, ... - koncept: syndrom, “obraz” nemoci : tyfus (salmonely či rickettsie a jejich toxiny jsou příčinou i symptomem tyfu, nikoli však chorobou samou, “celkovým onemocněním zvaným tyfus”)

- klasický model teorie testů, Zprostředkované “slabé asociativní měření” = „měření“ konceptů pomocí indikátorů tj. modelování např. známé - model společných latentních faktorů, - IRT modely položkových odpovědí, . . . a nejstarší klasický - klasický model teorie testů,

Jakákoli výzkumná diagnostická metodika je “test” Jak k problému přistupuje klasická teorie testů ? Jakákoli výzkumná diagnostická metodika je “test” Cíl teorie testů: zkvalitnění diagnostiky pomocí modelových vztahů mezi vlastnostmi testu

 délka testu - reliabilita - validita Intuitivní příklady:  obtížnost - validita  reliabilita - validita  délka testu - reliabilita - validita  oprava validity na vliv nepřijatých uchazečů  validita proti efektivitě selekce Příklady obvyklých praktických úkolů:  maximalizace predikční validity pro přijímání a selekci uchazečů  optimální redukce a úspornost diagnostiky “test equating” - zajištění srovnatelnosti výsledků různých verzí testu atd.

“Psychometrické” vlastnosti testu: reliabilita, validita objektivita, homogenita*, obtížnost, konzistence, délka, ekvivalence, čas, specifičnost, rychlost, generalizabilita dimenzionalita-komplexita, (* expertně hodnocená vlastnost)

Validita: ne-psychometrická - expertízně posuzovaná - obsahová (logická, věcná) teoreticko-konceptuální čili “konstruktová” a homogenita - “zřejmá” neboli “face” psychometrická - formálně vyčíslená - tradiční statistické metody: korelace, regrese - netradiční: stochastické modely, teorie informace aj.

Druhy psychometrické validity latentní - manifestní faktorová (v modelu společných faktorů) diskriminační síla (v modelech IRT), konvergentní / diskriminantní (MTMM) vnitřní - vnější jednoduchá - složená přímá - “čistá” - inkrementální souběžná - predikční absolutní - diferenciální vnitřní vzájemná paramorfní

- metodou “stability, test-retest” (u paralelních testů) Odhad reliability pro testy paralelně a tau-ekvivalentní - metodou “stability, test-retest” (u paralelních testů) - dělením, “split-half “ (paralelně-ekvivalentní části, “metoda konzistence”, nezaměňovat s konzistencí testu !!) - metodou “obsahové ekvivalence”- dva různé testy paralelně-ekvivalentní - metodou “dolní meze” (u tau-ekvivalentních testů): - přímo : Cronbachův koeficient ALFA - z faktorového modelu: McDonaldův OMEGA - vnitrotřídní korelací z ANOVA s nejméně dvojrozměrným designem a modelem typu „mixed s replikacemi“

Typy ekvivalence testů u unidimenzionální homogení skupiny testů (od nejsilnější po nejvolnější typ ekvivalence): - paralelně-ekvivalentní - true-score ekvivalentní: - tau-ekvivalentní - kvazi-tau-ekvivalentní - kongenerické - unidimenzionální

změřená hodnota =přesná hodnota+ chyba Indikátor = “test” Koncept = “to, co má test měřit” .. laická „definice“ validity Jak matematicky tento problém modeluje klasická teorie testů? Analogie Gaussova modelu chyb měření: změřená hodnota =přesná hodnota+ chyba

x   observed score x = true score  + discrepancy  Terminologie teorie testů: pozorovaná hodnota = skutečná hodnota + diskrepance observed score x = true score  + discrepancy  x =  +  x   Empirický indikátor Nepozorovatelný koncept Diskrepance známá neznámá neznámá Ve výzkumné diagnostické praxi se případ absolutně nulové diagnostické diskrepance  téměř nikdy nevyskytuje.

 ... specifická přesná hodnota individuálního testu Dvě pojetí nepozorovatelné skutečné hodnoty : 1)  ... specifická přesná hodnota individuálního testu např. ´přesná hodnota systolického krevního tlaku´  ... diagnostická chyba , jakoby „chyba měření“ diskrepance = chyba v důsledku ne-reliability testu u některých (!) testů můžeme výjimečně smysluplně (?) odhadnout  několika n opakováními 1, 2,..., n jako jejich průměr P P(x1, x2,.. . xn)    , tj. statistický odhad blížící se k neznámemu  .

 ... generická úroveň teoretického “konstruktu” společného skupině testů, tj. indikátorů „téhož druhu“ např. ´úroveň senzo-motorické koordinace indikované několika různými testy´, pak  ... diskrepance hodnoty x daného testu od  coby úrovně “konstruktu” , společného skupině m testů x1, x2, ..., xm,  = směs chyby a specifičnosti testu

 = chyba konečného výsledku diagnostiky jednotlivce U specifického  :  = chyba konečného výsledku diagnostiky jednotlivce V ní komplexně všechny vlivy, podle přísnosti standardizace : prostředí, chyby experimentátora, nestabilita atd. Např.: - počasí, vliv biologických cyklů, ... - nedostatečné zaškolení pro měření kožních řas - nejednoznačost instrukcí pro časový interval k přenesení krevních vzorků do chladničky - včetně přísnosti kalibrace termostatu v chladničce Nezaměňovat s technickou chybou přístroje jako článku v komplexu zdrojů ne-reliability např. přesnost analyzátoru plynů VO2 max  3% ,

Klasický model teorie testů x =  +  vede i k rozkladu rozptylu: Sx2 = S2 + S2 . Soustava intuitivně i teoreticky zdůvodněných matematických axiómů modelu pak umožňuje zavést - empiricky smysluplných pojmů pro praxi, - vztahů = vzorců ke zkvalitnění diagnostiky Z nich některé nyní uvedeme i s příklady použití.

Střední- standardní diagnostická chyba se intuitivně-logicky definuje jako směrodatná odchylka diskrepancí, S , tj. jako odmocnina rozptylu diskrepancí, jakoby analogie střední chyby „měření”  S

OBSAHOVĚ HOMOGENNÍ TESTY či jejich opakovaná HOMOGENNÍ „MĚŘENÍ“ diagnostikují tutéž jim společnou vlastnost, tutéž proměnnou se skutečnými hodnotami  PARALELNĚ EKVIVALENTNÍ TESTY , zkráceně JEN: PARALELNÍ takové homogenní testy ve skupině diagnostikují jim společnou vlastnost  se stejnou střední diagnostickou chybou S

Koeficient diagnostické reliability (“spolehlivosti”) Rel x = S2 / Sx2 tj. podíl, proporce neznámého rozptylu skutečných hodnot ku rozptylu pozorovaných možno jen zhruba odhadnout jako korelaci dvou paralelních x , x´, - buď různých paralelních testů x , x´ - nebo paralelních měření x , x´ týmž testem

Praktické stanovení střední diagnostické chyby: Známe-li ze standardizačních studií reliabilitu Relx a směrodatnou odchylku u dané populace, vypočteme S = Sx Ilustrace: Reliabilita “měření systolického krevního tlaku“ 0,81 směrodatná odchylka v kategorii pacientů 5 mmHg střední diagnostická chyba je S = 5 .(1- 0,81) = 5 .0,09 = 5 . 0,3 = 1,5 mmHg

Střední a přibližně mezní diagnostická chyba: Při přibližně normálním rozložení: a) “střední“ chyba  S - tzv. „68%-ní“ chyba znamená, že nebude překročena ve více než 32% individuálních hodnocení b) tzv. “95%-ní chyba” by neměla být překročena ve více než v “zanedbatelném” (?) počtu 5% procent případů, je tzv. přibližná mezní chyba max   2.S , Ve výše uvedeném příkladu max   3 mmHg

Kritický rozdíl dvou výsledků U normálního rozdělění při volbě 95%-ní chyby . rozdíl či přírůstek, který překračuje chyby diagnostikování stanovíme přibližně  xa - xb krit = 1,4 . max Např. zlepšení či zhoršení krevního tlaku je teprve rozdíl větší než 1,4 . 3 = 4,2 mmHg

Reliabilita = „nutná podmínka validity”- a tedy: jaká je maximální možná validita testu, známe-li jeho reliabilitu? a) Nejvyšší validita testu x k jakémukoli kritériu-účelu y nemůže převýšit odmocninu spolehlivosti testu: maximum  rxy = Např. při Relx = 0,64 je maximum validity 0,80. b) Ani kritérium y nemá reliabilitu Rel y = 1, a proto maximum  rxy =

c) „Disatenuace“ validity Při validitě x ku y , např. rxy = 0,48, a reliabilitách Rel x = 0,64 a Rel y = 0,81 : jaká by byla validita, kdyby byly x a y diagnostikovány absolutně bez chyb ? rTxTy= rxy/ ( ) = 0,48 / (0,8 . 0,9) = 0,67 „Disatenuovaná” validita 0,67 : - maximální dosažitelná zlepšením reliability - rTxTy1... testy jsou kongenericky ekvivalentní

Vliv délky testu na spolehlivost Spearmanův-Brownův S-B vzorec : Rel(nx) = n Relx / [1 + (n-1) Relx ] pro test, jehož části jsou paralelně ekvivalentní Je-li test x vnitřně paralelní a s reliabilitou 0,60, prodloužení n = 4-krát: Rel(4x) = 4. 0,6 / [1 + (4-1).0,6] = = 2,4 / 2,8 = 0,86, pokud 4-násobné prodloužení je prakticky únosné.

Použití S-B na “split-half” odhad reliability: - test rozdělíme na části, u každé dílčí výsledek, - dilčí výsleky rozdělíme na “sudé” a “liché”, - jsou-li paralelně ekvivalentní, - spočítáme jejich korelaci jako odhad reliabity.. Jde o reliabilitu mezi “polovinami” původního testu, proto použijeme S-B pro dvojnásobný test. . Příklad: Test sed-leh 2 minuty rozdělíme po 10-sec. intervalech na 12 častí, sečteme počet cyklů v lichých a v sudých intervalech, jejich korelační koeficient pak opravíme na délku n = 2.

Vliv délky testu na validitu Vyšší reliabilita umožňuje zlepšit validitu - tuto potencialitu lépe odhadneme u vnitřně paralelního testu pomocí vzorce: r(nx) y = rxy /

PREDIKČNÍ VALIDITA - problémy: - oprava zkreslené validity vzhledem k odmítnutým uchazečům rxy = 1 / - validita vs. efektivita selekce