ZPRACOVÁVÁME KVANTITATIVNÍ DATA I.

Slides:



Advertisements
Podobné prezentace
Testování statistických hypotéz
Advertisements

Statistika.
kvantitativních znaků
Testování statistických hypotéz
Lineární regresní analýza Úvod od problému
ZPRACOVÁVÁME KVANTITATIVNÍ DATA II.
Testování závislosti kvalitativních znaků
Testování hypotéz (ordinální data)
Statistika Vypracoval: Mgr. Lukáš Bičík
Testování hypotéz přednáška.
„EU peníze středním školám“
Obsah statistiky Jana Zvárová
Náhodná proměnná Rozdělení.
Testování hypotéz vymezení důležitých pojmů
Analýza dat.
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Řízení a supervize v sociálních a zdravotnických organizacích
Odhady parametrů základního souboru. A) GNR B) neznámé r. ZS (přesné parametry) : ,   VS (odhady parametrů): x, s x.
Kontingenční tabulky Závislost dvou kvalitativních proměnných.
Odhady odhady bodové a intervalové odhady
Ringier ČR - Výzkumné oddělení
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Biostatistika 5. přednáška Aneta Hybšová
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Charakteristiky variability
Statistika 2 Aritmetický průměr, Modus, Medián
Biostatistika 6. přednáška
Biostatistika 7. přednáška
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Pohled z ptačí perspektivy
MATEMATICKÁ STATISTIKA
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
8. Kontingenční tabulky a χ2 test
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
Základy statistiky Autor: Jana Buršová.
PSY717 – statistická analýza dat
VY_32_INOVACE_21-16 STATISTIKA 2 Další prvky charakteristiky souboru.
Aplikovaná statistika 2. Veronika Svobodová
1. cvičení
Inferenční statistika - úvod
HYPOTÉZY Hypotéza je tvrzení (výrok) vyjařující vztah mezi proměnnými
Zpracování dat z kvantitativního výzkumu. Na základní škole se uskutečnil výzkum, kde se měřila hmotnost žáků 8.tříd. Výzkumu se účastnilo 33 žáků. Byly.
Měření v sociálních vědách „Měřit všechno, co je měřitelné, a snažit se učitnit měřitelným vše, co dosud měřitelné není“. (Galileo Galilei)
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)
… jsou bohatší lidé šťastnější?
INDUKTIVNÍ STATISTIKA
Statistické testování – základní pojmy
Přednáška č. – 4 Extrémní hodnoty a analýza výběrových souborů
Neparametrické testy parametrické a neparametrické testy
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
Neparametrické testy parametrické a neparametrické testy
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
PSY117 Statistická analýza dat v psychologii Přednáška
Neparametrické testy pro porovnání polohy
Metodologie pro ISK 2 Úvod do práce s daty
Úvod do induktivní statistiky
Metodologie pro ISK 2 Kontrola dat Popis kategorizovaných dat
Analýza kardinálních proměnných
7. Kontingenční tabulky a χ2 test
Základy statistiky.
Základy popisné statistiky
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Transkript prezentace:

ZPRACOVÁVÁME KVANTITATIVNÍ DATA I. Mgr. Karla Hrbáčková Metodologie pedagogického výzkumu 18. 4. 2007

„SOUVISLOST“ Kvantitativní výzkum – testování hypotéz Jeho silnou stránkou je schopnost nám říct, jak moc se mýlíme. Testování hypotéz – produkce výroků o tom, jak silně proměnné souvisí (jaká je mezi nimi míra korelace – hodně, malinko).

OMYL Představte si, že máte v rukou obálku s vyplněným dotazníkem z výzkumu na celostátním vzorku dospělého obyvatelstva. Váš úkol je odhadnout, jaké je pohlaví respondenta, jehož dotazník je v obálce (jaká je pravděpodobnost správného odhadu?). Představte si, že z obálky vyčtete odpověď na následující otázku. Užíváte někdy rtěnku? ANO x NE Pravděpodobnost správného odhadu je mnohem vyšší. Můžeme tedy říci, že mezi proměnnými „pohlaví“ a „používání rtěnky“ existuje souvislost. Souvislost může být definována jako přírůstek v pravděpodobnosti správného odhadu jedné proměnné, za který vděčíme naší znalosti o jiné proměnné.

Příklad souvislosti Geometrie Matematika A B C D 50% 35% 10% 0% 45% 55% 25% 5% 8% 2% 80% N 100% 150 360 400 50 Říká nám tato tabulka něco o souvislosti mezi známkou z G a M? Co by to znamenalo, kdyby vedla diagonála obráceně?

Příklad A B C D J K L M Je nějaká souvislost mezi proměnným v tabulce? Proměnná X A B C D J K L M Proměnná Y Je nějaká souvislost mezi proměnným v tabulce? X reprezentuje volební obvody, Y politické strany. Když známe hodnotu X, odhadneme hodnotu Y! Statistika – srovnání nalezené distribuce pozorování do polí tabulky s takovou distribucí, jakou bychom obdrželi, kdyby byla pozorování zařazena do polí tabulky náhodně.

Redukce informací muži: 8 ženy: 2 Průměrný počet půllitrů vypitý během jednoho týdne: muži: 8 ženy: 2 Více věříme průměru, který byl vypočítán na vzorku 500 pozorování, než průměru vypočítaném pro vzorek 5 jedinců. Často je pro nás výhodné vyjádřit informaci o vzorku v co nejjednodušší formě (ale stačí nám průměr?) Jaká mají data rozložení? Míry centrální tendence, míry variability, míry koncentrace. Průměr a jiné reprezentace středních hodnot redukují informaci do jednoho údaje podle druhu dat!

Statistické operace z různých druhů měření NOMINÁLNÍ MĚŘENÍ – četnosti, %, modus, koeficient kontingence, chí-kvadrát, atd. ORDINÁLNÍ MĚŘENÍ – medián, některé míry variability, pořadové koeficienty korelace, atd. INTERVALOVÁ MĚŘENÍ – aritmetický průměr, testy významnosti – t-test, F-test, směrodatná odchylka, analýza rozptylu, koeficienty korelace,atd.

TABULKA ČETNOSTÍ Utřídění dat pomocí tzv. „čárkovací metody.“ Při měření školní úspěšnosti získali žáci tyto známky z matematického testu: 1, 1, 2, 4, 3, 3, 3, 2, 4, 1, 3, 2, 1, 5, 1, 1, 2, 4, 3, 2, 3, 3. Sestavte tabulku četností podle vzorce fi = ni : n Známka Četnost ni Relativní četnost fi Kumulativní četnost 1 6 0,273 2 5 0,227 11 3 7 0,318 18 4 0,136 21 0,046 22 ∑22 ∑1,000

Aritmetický průměr, modus, medián Intervalový popis střední hodnoty průměr r – 2,455 Počet dětí, příjem věk, barva očí Modus – ta hodnota, která se v daném souboru dat vyskytuje nejčastěji (má největší četnost). Medián – prostřední hodnota z řady hodnot seřazených podle velikosti (rozděluje soubor na dvě stejné části). 1,1,1,1,1,1,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4,5 (stojí přesně uprostřed, odlehlá hodnota není reflektována). Známka Četnost ni n . xi 1 6 2 5 10 3 7 21 4 12 ∑22 ∑54

Míra variability (rozptyl) Jak dalece jsou data rozptýlena? Třída A 1,1,1,1,1,1,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4,5 Třída B 1,1,1,1,1,1,1,1,1,1,2,4,4,4,4,4,4,4,4,5,5. Rozptyl – zda mezi průměry jsou či nejsou významné rozdíly! Příklad – terč. Směrodatná odchylka – jak jsou hodnoty vzdáleny od průměru! Ptáme se, co činí kolísání rozptylu. Kvantitativní výzkum – kontroluji rozptyl hodnot (dat), izoluji proměnné. Chceme, aby to byla nezávisle proměnná, neměla by to být náhoda. Jestliže je naše působení větší než náhoda, přijímáme alternativní hypotézu. Příklad experimentu – vliv metody.

Výpočet rozptylu A = {1,1,1,5,5,5} B = {3,3,3,3,3,3} Vypočítejte průměr (r) a rozptyl (s2) 1. Od pozorované hodnoty pro každého jedince odečteme průměr. 2. Odchylku vypočítanou pro každého jedince umocníme. 3. Umocněné odchylky sečteme. 4. Součet vydělíme počtem jedinců ve vzorku = rozptyl. 5. Výsledek dělení odmocníme = směrodatná odchylka. x x2 3 r=3 s2 =0 x x2 1 -2 4 5 2 r=3 s2 =4

Směrodatná odchylka, normální rozložení -1 +1 Množství případů, kteří mají danou hodnotu proměnné 68% všech respondentů Když odečteme standardní odchylku od průměru, mezi těmito hodnotami bude vždy 68% pozorování. Když od průměru odečteme a přičteme místo jedné směrodatné odchylky dvě, v rozmezí definovaném těmito novými hodnotami bude 95% pozorování. Směrodatná odchylka měří homogennost souboru. Umožní nám definovat, jak dobře vypočítaný průměr charakterizuje populaci. Měsíční příjem osob našeho vzorku byl 1.480 Kč průměrně. Můžeme předpokládat, že průměrný příjem populace spadá s 95% pravděpodobností do oblasti mezi 1.410 a 1.550 Kč. Díky směrodatné odchylce jsme schopni říci, že existuje jen 5% pravděpodobnost, že rozdíly v průměrných známkách z určitého předmětu ve dvou zkoumaných třídách jsou náhodné a že pro zbývajících 95% můžeme doufat, že rozdíly jsou způsobeny funkcí nějaké vlastnosti. r = průměr rozptyl Hodnoty, kterých může studovaná proměnná nabývat

Nominální data – chí-kvadrát Nejčastějším statistickým postupem na úrovni nominálního měření bývá test chí-kvadrát. Ověřuje se zde, zda četnosti, které byly získány pozorováním se významně odlišují od teoretických četností, které odpovídají dané nulové hypotéze. Příklad pro pochopení principu testu dobré shody. Skupina 90 žáků základní školy ve výzkumu odpovídala na otázku: Který z vyučovacích předmětů máš nejraději? A matematika B fyzika C chemie Na základě testu dobré shody chí-kvadrát máme rozhodnout, zda mezi oblibou předmětů jsou statisticky významné rozdíly.

Princip testu dobré shody chí-kvadrát Vyučovací předmět Pozorovaná četnost P Očekávaná četnost O P - O (P – O)2 O fyzika 35 30 5 25 0,833 chemie 28 -2 4 0,133 matematika 27 -3 9 0,300 ∑ 90 1,266 Jestliže je výsledek statisticky významný, je velmi nepravděpodobné, že by byl způsoben náhodou. Začínáme formulací nulové (mezi sledovanými jevy není vztah) a alternativní (existuje vztah) hypotézy. H0 : Četnost žáků, kteří vybírají jednotlivé předměty, jsou zhruba stejné. H1 : Četnost žáků, kteří vybírají jednotlivé předměty, jsou rozdílné. Vypočítanou hodnotu srovnáváme s tzv. kritickou hodnotou (statistická tabulka). x2 = ∑ (P – O)2 O

Princip testu dobré shody chí-kvadrát Příslušnou kritickou hodnotu hledáme vždy pro určitou (zvolenou) hladinu významnosti a určitý počet stupňů volnosti. Ve statistických tabulkách nalézáme, že kritická hodnota chí-kvadrát pro hladinu významnosti 0,05 a 2 stupně volnosti je x20,05(2) = 5,991 Zjišťujeme, že vypočítaná hodnota je menší, než hodnota kritická, a proto přijímáme nulovou hypotézu. K odmítnutí nulové hypotézy je třeba, aby vypočítaná hodnota testového kritéria byla větší (nebo alespoň stejně velká) jako hodnota kritická. Pokud jsme nuceni přijmout nulovou hypotézu, znamená to, že výsledky je možno docela dobře připsat na vrub náhody, že tedy mezi studovanými jevy není významný vztah. Nebylo prokázáno, že mezi oblibou vyučovacích předmětů je rozdíl.

Závislost mezi jevy - nominální Existuje závislost mezi danými dvěma pedagogickými jevy, které byly změřeny na úrovni nominálního (a vyššího) měření. Příklad: Vzorku 400 náhodně vybraných studentů PdF byl předložen dotazník. Jedna z otázek (uzavřené otázky) zjišťovala, zda studenti byly v uplynulém studijním roce ubytováni na kolejích. Další z otázek zjišťovala, jakého průměrného prospěchu studenti v uplynulém studijním roce dosáhli. Máme rozhodnout, zda je vztah mezi tím, zda studenti bydlí na kolejích a tím, jakých studijních výsledků dosahují. Použijeme tzv. kontingenční tabulku (četnosti studentů, kteří odpověděli určitým způsobem na první otázku a současně určitým způsobem na druhou otázku).

Příklad lepší než 1,6 1,6 – 2,1 horší než 2,1 ∑ + 40 (48) 107 (108) 93 (84) 240 - 40 (32) 73 (72) 47 (86) 160 80 180 140 400 bydlení na kolejích Např. číslo 93 v tabulce znamená, že 93 studentů odpovědělo, že bydleli na kolejích a současně, že měli průměrný prospěch horší než 2,1. Čísla uváděná vpravo od tabulky a pod tabulkou jsou tzv. okrajové („marginální“) četnosti, tj. součty četností v řádcích a sloupcích tabulky. Formulujeme nulovou a alternativní hypotézu. Vypočítáme očekávané četnosti pro každé pole kontingenční tabulky tak, že násobíme odpovídající marginální četnosti v tabulce a potom dělíme celkovou četností. Např. očekávanou četnost (48) vypočítáme O = 80 . 240 = 48 Pro každé pole kontingenční tabulky vypočítáme hodnotu (P - O)2 : O. Testové kritérium x2 vypočítáme jako součet všech těchto hodnot, tj. 1,333 + 0,009 + 0,964 + 2,000 + 0,014 + 1,446 = 5,767. Určíme hladinu významnosti a počet stupňů volnosti podle vzorce f = (r – 1) . (s – 1) = 2 Srovnáme-li vypočítanou hodnotu testového kritéria (5,767) s kritickou hodnotou testového kritéria x20,05(2) = 5,991, zjistíme, že je menší, proto přijímáme nulovou hypotézu. 400

Závislost mezi jevy - ordinální Koeficienty korelace např. Spearmanův (ordinální dat), Pearsonův (metrická data). Př. závislost mezi výškou a věkem žáků. Lze říci, že výška žáků se s přibývajícím věkem zvětšuje, ale nelze tvrdit, že určitému věku odpovídá jen určitá výška žáka. Zjišťujeme, zda existuje souvislost, nikoli která proměnná ji způsobuje. Hodnoty koeficientu (-1 do +1).

Příklad x - MA 10 8 7 5 3 2 y – PŘ 9 6 4 n ∑ xi yi - ∑ xi ∑yi √ { n ∑ xi2 – (∑ xi )2 } { n ∑ yi2 – (∑ yi )2 } xi yi xi yi xi2 yi2 10 100 8 80 64 9 72 81 7 6 42 49 36 5 35 25 3 4 12 16 2 50 52 372 376 380 8 . 372 – 50 . 52 √ (8 . 376 – 502) (8 . 380 – 522) r = 0,91

Regresní linie 4500 4000 3500 3000 2500 2000 1500 1000 500 6 9 12 16 20

Regresní linie Perfektní pozitivní korelace, s rostoucí hodnotou X hodnota Y vzrůstá. Hodnotu Y odhadneme na základě znalosti hodnoty X bez jakéhokoli omylu, r = 1. Perfektní negativní korelace, s přirůstající hodnotou X, hodnota Y klesá, r = -1. Silná korelace. Perfektní nezávislost, znalost hodnoty X nezlepší naši schopnost odhadnout správně hodnotu Y, r = 0.