ZPRACOVÁVÁME KVANTITATIVNÍ DATA I. Mgr. Karla Hrbáčková Metodologie pedagogického výzkumu 18. 4. 2007
„SOUVISLOST“ Kvantitativní výzkum – testování hypotéz Jeho silnou stránkou je schopnost nám říct, jak moc se mýlíme. Testování hypotéz – produkce výroků o tom, jak silně proměnné souvisí (jaká je mezi nimi míra korelace – hodně, malinko).
OMYL Představte si, že máte v rukou obálku s vyplněným dotazníkem z výzkumu na celostátním vzorku dospělého obyvatelstva. Váš úkol je odhadnout, jaké je pohlaví respondenta, jehož dotazník je v obálce (jaká je pravděpodobnost správného odhadu?). Představte si, že z obálky vyčtete odpověď na následující otázku. Užíváte někdy rtěnku? ANO x NE Pravděpodobnost správného odhadu je mnohem vyšší. Můžeme tedy říci, že mezi proměnnými „pohlaví“ a „používání rtěnky“ existuje souvislost. Souvislost může být definována jako přírůstek v pravděpodobnosti správného odhadu jedné proměnné, za který vděčíme naší znalosti o jiné proměnné.
Příklad souvislosti Geometrie Matematika A B C D 50% 35% 10% 0% 45% 55% 25% 5% 8% 2% 80% N 100% 150 360 400 50 Říká nám tato tabulka něco o souvislosti mezi známkou z G a M? Co by to znamenalo, kdyby vedla diagonála obráceně?
Příklad A B C D J K L M Je nějaká souvislost mezi proměnným v tabulce? Proměnná X A B C D J K L M Proměnná Y Je nějaká souvislost mezi proměnným v tabulce? X reprezentuje volební obvody, Y politické strany. Když známe hodnotu X, odhadneme hodnotu Y! Statistika – srovnání nalezené distribuce pozorování do polí tabulky s takovou distribucí, jakou bychom obdrželi, kdyby byla pozorování zařazena do polí tabulky náhodně.
Redukce informací muži: 8 ženy: 2 Průměrný počet půllitrů vypitý během jednoho týdne: muži: 8 ženy: 2 Více věříme průměru, který byl vypočítán na vzorku 500 pozorování, než průměru vypočítaném pro vzorek 5 jedinců. Často je pro nás výhodné vyjádřit informaci o vzorku v co nejjednodušší formě (ale stačí nám průměr?) Jaká mají data rozložení? Míry centrální tendence, míry variability, míry koncentrace. Průměr a jiné reprezentace středních hodnot redukují informaci do jednoho údaje podle druhu dat!
Statistické operace z různých druhů měření NOMINÁLNÍ MĚŘENÍ – četnosti, %, modus, koeficient kontingence, chí-kvadrát, atd. ORDINÁLNÍ MĚŘENÍ – medián, některé míry variability, pořadové koeficienty korelace, atd. INTERVALOVÁ MĚŘENÍ – aritmetický průměr, testy významnosti – t-test, F-test, směrodatná odchylka, analýza rozptylu, koeficienty korelace,atd.
TABULKA ČETNOSTÍ Utřídění dat pomocí tzv. „čárkovací metody.“ Při měření školní úspěšnosti získali žáci tyto známky z matematického testu: 1, 1, 2, 4, 3, 3, 3, 2, 4, 1, 3, 2, 1, 5, 1, 1, 2, 4, 3, 2, 3, 3. Sestavte tabulku četností podle vzorce fi = ni : n Známka Četnost ni Relativní četnost fi Kumulativní četnost 1 6 0,273 2 5 0,227 11 3 7 0,318 18 4 0,136 21 0,046 22 ∑22 ∑1,000
Aritmetický průměr, modus, medián Intervalový popis střední hodnoty průměr r – 2,455 Počet dětí, příjem věk, barva očí Modus – ta hodnota, která se v daném souboru dat vyskytuje nejčastěji (má největší četnost). Medián – prostřední hodnota z řady hodnot seřazených podle velikosti (rozděluje soubor na dvě stejné části). 1,1,1,1,1,1,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4,5 (stojí přesně uprostřed, odlehlá hodnota není reflektována). Známka Četnost ni n . xi 1 6 2 5 10 3 7 21 4 12 ∑22 ∑54
Míra variability (rozptyl) Jak dalece jsou data rozptýlena? Třída A 1,1,1,1,1,1,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4,5 Třída B 1,1,1,1,1,1,1,1,1,1,2,4,4,4,4,4,4,4,4,5,5. Rozptyl – zda mezi průměry jsou či nejsou významné rozdíly! Příklad – terč. Směrodatná odchylka – jak jsou hodnoty vzdáleny od průměru! Ptáme se, co činí kolísání rozptylu. Kvantitativní výzkum – kontroluji rozptyl hodnot (dat), izoluji proměnné. Chceme, aby to byla nezávisle proměnná, neměla by to být náhoda. Jestliže je naše působení větší než náhoda, přijímáme alternativní hypotézu. Příklad experimentu – vliv metody.
Výpočet rozptylu A = {1,1,1,5,5,5} B = {3,3,3,3,3,3} Vypočítejte průměr (r) a rozptyl (s2) 1. Od pozorované hodnoty pro každého jedince odečteme průměr. 2. Odchylku vypočítanou pro každého jedince umocníme. 3. Umocněné odchylky sečteme. 4. Součet vydělíme počtem jedinců ve vzorku = rozptyl. 5. Výsledek dělení odmocníme = směrodatná odchylka. x x2 3 r=3 s2 =0 x x2 1 -2 4 5 2 r=3 s2 =4
Směrodatná odchylka, normální rozložení -1 +1 Množství případů, kteří mají danou hodnotu proměnné 68% všech respondentů Když odečteme standardní odchylku od průměru, mezi těmito hodnotami bude vždy 68% pozorování. Když od průměru odečteme a přičteme místo jedné směrodatné odchylky dvě, v rozmezí definovaném těmito novými hodnotami bude 95% pozorování. Směrodatná odchylka měří homogennost souboru. Umožní nám definovat, jak dobře vypočítaný průměr charakterizuje populaci. Měsíční příjem osob našeho vzorku byl 1.480 Kč průměrně. Můžeme předpokládat, že průměrný příjem populace spadá s 95% pravděpodobností do oblasti mezi 1.410 a 1.550 Kč. Díky směrodatné odchylce jsme schopni říci, že existuje jen 5% pravděpodobnost, že rozdíly v průměrných známkách z určitého předmětu ve dvou zkoumaných třídách jsou náhodné a že pro zbývajících 95% můžeme doufat, že rozdíly jsou způsobeny funkcí nějaké vlastnosti. r = průměr rozptyl Hodnoty, kterých může studovaná proměnná nabývat
Nominální data – chí-kvadrát Nejčastějším statistickým postupem na úrovni nominálního měření bývá test chí-kvadrát. Ověřuje se zde, zda četnosti, které byly získány pozorováním se významně odlišují od teoretických četností, které odpovídají dané nulové hypotéze. Příklad pro pochopení principu testu dobré shody. Skupina 90 žáků základní školy ve výzkumu odpovídala na otázku: Který z vyučovacích předmětů máš nejraději? A matematika B fyzika C chemie Na základě testu dobré shody chí-kvadrát máme rozhodnout, zda mezi oblibou předmětů jsou statisticky významné rozdíly.
Princip testu dobré shody chí-kvadrát Vyučovací předmět Pozorovaná četnost P Očekávaná četnost O P - O (P – O)2 O fyzika 35 30 5 25 0,833 chemie 28 -2 4 0,133 matematika 27 -3 9 0,300 ∑ 90 1,266 Jestliže je výsledek statisticky významný, je velmi nepravděpodobné, že by byl způsoben náhodou. Začínáme formulací nulové (mezi sledovanými jevy není vztah) a alternativní (existuje vztah) hypotézy. H0 : Četnost žáků, kteří vybírají jednotlivé předměty, jsou zhruba stejné. H1 : Četnost žáků, kteří vybírají jednotlivé předměty, jsou rozdílné. Vypočítanou hodnotu srovnáváme s tzv. kritickou hodnotou (statistická tabulka). x2 = ∑ (P – O)2 O
Princip testu dobré shody chí-kvadrát Příslušnou kritickou hodnotu hledáme vždy pro určitou (zvolenou) hladinu významnosti a určitý počet stupňů volnosti. Ve statistických tabulkách nalézáme, že kritická hodnota chí-kvadrát pro hladinu významnosti 0,05 a 2 stupně volnosti je x20,05(2) = 5,991 Zjišťujeme, že vypočítaná hodnota je menší, než hodnota kritická, a proto přijímáme nulovou hypotézu. K odmítnutí nulové hypotézy je třeba, aby vypočítaná hodnota testového kritéria byla větší (nebo alespoň stejně velká) jako hodnota kritická. Pokud jsme nuceni přijmout nulovou hypotézu, znamená to, že výsledky je možno docela dobře připsat na vrub náhody, že tedy mezi studovanými jevy není významný vztah. Nebylo prokázáno, že mezi oblibou vyučovacích předmětů je rozdíl.
Závislost mezi jevy - nominální Existuje závislost mezi danými dvěma pedagogickými jevy, které byly změřeny na úrovni nominálního (a vyššího) měření. Příklad: Vzorku 400 náhodně vybraných studentů PdF byl předložen dotazník. Jedna z otázek (uzavřené otázky) zjišťovala, zda studenti byly v uplynulém studijním roce ubytováni na kolejích. Další z otázek zjišťovala, jakého průměrného prospěchu studenti v uplynulém studijním roce dosáhli. Máme rozhodnout, zda je vztah mezi tím, zda studenti bydlí na kolejích a tím, jakých studijních výsledků dosahují. Použijeme tzv. kontingenční tabulku (četnosti studentů, kteří odpověděli určitým způsobem na první otázku a současně určitým způsobem na druhou otázku).
Příklad lepší než 1,6 1,6 – 2,1 horší než 2,1 ∑ + 40 (48) 107 (108) 93 (84) 240 - 40 (32) 73 (72) 47 (86) 160 80 180 140 400 bydlení na kolejích Např. číslo 93 v tabulce znamená, že 93 studentů odpovědělo, že bydleli na kolejích a současně, že měli průměrný prospěch horší než 2,1. Čísla uváděná vpravo od tabulky a pod tabulkou jsou tzv. okrajové („marginální“) četnosti, tj. součty četností v řádcích a sloupcích tabulky. Formulujeme nulovou a alternativní hypotézu. Vypočítáme očekávané četnosti pro každé pole kontingenční tabulky tak, že násobíme odpovídající marginální četnosti v tabulce a potom dělíme celkovou četností. Např. očekávanou četnost (48) vypočítáme O = 80 . 240 = 48 Pro každé pole kontingenční tabulky vypočítáme hodnotu (P - O)2 : O. Testové kritérium x2 vypočítáme jako součet všech těchto hodnot, tj. 1,333 + 0,009 + 0,964 + 2,000 + 0,014 + 1,446 = 5,767. Určíme hladinu významnosti a počet stupňů volnosti podle vzorce f = (r – 1) . (s – 1) = 2 Srovnáme-li vypočítanou hodnotu testového kritéria (5,767) s kritickou hodnotou testového kritéria x20,05(2) = 5,991, zjistíme, že je menší, proto přijímáme nulovou hypotézu. 400
Závislost mezi jevy - ordinální Koeficienty korelace např. Spearmanův (ordinální dat), Pearsonův (metrická data). Př. závislost mezi výškou a věkem žáků. Lze říci, že výška žáků se s přibývajícím věkem zvětšuje, ale nelze tvrdit, že určitému věku odpovídá jen určitá výška žáka. Zjišťujeme, zda existuje souvislost, nikoli která proměnná ji způsobuje. Hodnoty koeficientu (-1 do +1).
Příklad x - MA 10 8 7 5 3 2 y – PŘ 9 6 4 n ∑ xi yi - ∑ xi ∑yi √ { n ∑ xi2 – (∑ xi )2 } { n ∑ yi2 – (∑ yi )2 } xi yi xi yi xi2 yi2 10 100 8 80 64 9 72 81 7 6 42 49 36 5 35 25 3 4 12 16 2 50 52 372 376 380 8 . 372 – 50 . 52 √ (8 . 376 – 502) (8 . 380 – 522) r = 0,91
Regresní linie 4500 4000 3500 3000 2500 2000 1500 1000 500 6 9 12 16 20
Regresní linie Perfektní pozitivní korelace, s rostoucí hodnotou X hodnota Y vzrůstá. Hodnotu Y odhadneme na základě znalosti hodnoty X bez jakéhokoli omylu, r = 1. Perfektní negativní korelace, s přirůstající hodnotou X, hodnota Y klesá, r = -1. Silná korelace. Perfektní nezávislost, znalost hodnoty X nezlepší naši schopnost odhadnout správně hodnotu Y, r = 0.