Metodologie ISK Základy statistického zpracování dat Ladislava Suchá, 28. dubna 2011.

Slides:



Advertisements
Podobné prezentace
Strategické otázky výzkumníka 1.Jaký typ výzkumu zvolit? 2.Na jakém vzorku bude výzkum probíhat? 3.Jaké výzkumné metody a techniky uplatnit?
Advertisements

Kapitola 1: Popisná statistika jednoho souboru2  Matematická statistika je věda, která se zabývá studiem dat vykazujících náhodná kolísání.  Je možno.
Testy hypotéz - shrnutí Testy parametrické Testy neparametrické.
Období vzniku: duben _inovace_FG.9.48 Autor : Vladimír TesaříkČlověk a svět práce, finanční gramotnost, nové auto.
Základy zpracování geologických dat Rozdělení pravděpodobnosti R. Čopjaková.
Základní škola a Mateřská škola, Liberec, Barvířská 38/6, příspěvková organizace Název : VY_32_inovace_18 Informatika - MS Excel – Typy grafů Autor: Pavlína.
Práce se spojnicovým diagramem Gymnázium a Jazyková škola s právem státní jazykové zkoušky Zlín Tematická oblastMATEMATIKA - Finanční matematika a statistika.
Statistika Statistické funkce v tabulkových kalkulátorech MSO Excel a OO.o Calc.
Grafy Centrum pro virtuální a moderní metody a formy vzdělávání na Obchodní akademii T. G. Masaryka, Kostelec nad Orlicí.
9. SEMINÁŘ INDUKTIVNÍ STATISTIKA 2. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ.
Induktivní statistika
Testování hypotéz Testování hypotéz o rozdílu průměrů
STATISTIKA Starší bratr snědl svůj oběd i oběd mladšího bratra. Oba snědli v průměru jeden oběd.
Interpolace funkčních závislostí
„VĚDA JE, DÁVÁ SPRÁVNÉ ÚDAJE, NEKLESEJTE NA MYSLI, ONA VÁM TO VYČÍSLÍ“
Matematika 3 – Statistika Kapitola 4: Diskrétní náhodná veličina
Kvantitativní metody výzkumu v praxi
Testování hypotéz vymezení základních pojmů
Lineární funkce - příklady
STATISTICKÉ METODY V GEOGRAFII
Testování hypotéz Testování hypotéz o rozdílu průměrů
Statistické pojmy. Statistické pojmy Statistika - vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter Pojem statistika slouží k.
Sloupkový diagram Tematická oblast
Téma 11: Finanční plánování
Charakteristiky variability
Charakteristiky variability
8.1 Aritmetické vektory.
Výběrové metody (Výběrová šetření)
ADDS cviceni Pavlina Kuranova.
ASTAc/01 Biostatistika 2. cvičení
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Základy zpracování geologických dat testování statistických hypotéz
Poměr Co je poměr. Změna v daném poměru..
ROZVRHOVÁNÍ SLUŽEB VE ZDRAVOTNICKÉM ZAŘÍZENÍ
Popisná /deskriptivní/ statistika
Párový neparametrický test
4.1 – 4.3 Lineární nerovnice i jednoduchý podílový tvar
Základy zpracování geologických dat testování statistických hypotéz
Parametry polohy Modus Medián
SÁRA ŠPAČKOVÁ MARKÉTA KOČÍBOVÁ MARCELA CHROMČÁKOVÁ LUKÁŠ BARTOŠ B3E1
Míry asociace obecná definice – síla a směr vztahu
Novinky v Záznamníku učitele
FSS MUNI, katedra SPSP Kvantitativní výzkum x118 Téma 11: Korelace
Želvy H0 = není rozdíl mezi délkou želv na Marshallových ostrovech a délkou celé populace karet obrovských H1 = je rozdíl mezi délkou karet obrovských.
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Digitální učební materiál
V.a1 Teoretické pozadí statistické analýzy
Stavební fakulta ČVUT, B407
Test z Metodologie – náměty k přípravě
Spojité VELIČINY Vyšetřování normality dat
Střední hodnoty Udávají střed celé skupiny údajů, kolem kterého všechny hodnoty kolísají (analogie těžiště). Aritmetický průměr - vznikne součtem hodnot.
Jevy a náhodná veličina
STATISTIKA Exaktní věda Úkoly statistiky zjišťovat data
XII. Binomické rozložení
Metody sociálního výzkumu 6. blok
Základní statistické pojmy
Teorie chyb a vyrovnávací počet 1
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
SEM – speciální přístupy
TŘÍDĚNÍ DAT je základní způsob zpracování dat.
Lineární regrese.
Metody sociálních výzkumů
Cauchyho rozdělení spojité náhodné veličiny
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie chyb a vyrovnávací počet 1
Jiří Šafr jiri.safr(zavináč)seznam.cz
Lineární funkce a její vlastnosti
T - testy Párový t - test Existuje podezření, že u daného typu auta se přední pneumatiky nesjíždějí stejně. H0: střední hodnota sjetí vpravo (m1) = střední.
… jak přesně počítat s nepřesnými čísly
Teorie chyb a vyrovnávací počet 2
Transkript prezentace:

Metodologie ISK Základy statistického zpracování dat Ladislava Suchá, 28. dubna 2011

Page  2 Programy na statistické zpracování dat

Page  3 Aplikace na online dotazování, které zvládají nějkteré základní i složitější statistické operace

Page  4 Fáze vyhodnocování dat Kódování Třídění prvního stupně (Úpravy znaků) Třídění druhého stupně

Page  5 Kódování Jednotlivým variantám znaku jsou přiřazovány symboly (čísla) podle kódovacího čísla Kódování často probíhá přímo v terénu nebo ho provádí aplikace Zápis do matice dat: Jednotlivé případy = řádky Jednotlivé proměnné = sloupce

Page  6 Druhy proměnných Nominální Známe hodnoty, ale můžeme o nich říci pouze to, že jsou různé Nelze provádět aritmetické operace Přiřazení znaku je symbolické Pořadové Můžeme určit pořadí (vzdělání, spokojenost) Znaky = míra pořadovosti Kardinální (intervalové, spojité) Můžeme říci, o kolik je jedna hodnota vyšší než druhá (měsíční příjem, počet dětí v domácnosti atd.) Přiřazení znaku = reálné číslo

Page  7 Otázka v dotazníku a její zpracování 2. Považujete obor Informační studia a knihovnictví za perspektivní? velmi perspektivní1 spíše perspektivní2 spíše neperspektivní3 zcela neperspektivní4 nevím, nemohu odpovědět-1 neodpověděl/a-2 Chybějící hodnoty (missing values) Zapisujeme jako „value labels“ Hodnoty proměnné

Page  8 Ukázka – zahrnutí missing values (chyba)

Page  9 Q1_prinos Studium na KISK hodnotím jako: Q1_prinos Studium na KISK hodnotím jako: 1 velmi přínosné 2 spíše přínosné 3 spíše nepřínosné 4 zcela nepřínosné -1 nevím / nemohu odpovědět -2 Neodpověděl/a 1 velmi přínosné 2 spíše přínosné 3 spíše nepřínosné 4 zcela nepřínosné -1 nevím / nemohu odpovědět -2 Neodpověděl/a Případy (cases) Q8_1 Povinné (A) kurzy mají logickou časovou posloupnost. Q8_2 Obsahy jednotlivých povinných (A) kurzů se nepřekrývají. Q8_3 Jsem spokojen/a s tematickou šíří nabídky povinně volitelných (B) kurzů. Q8_4 Jsem spokojen/a s počtem nabízených povinně volitelných (B) kurzů. Q8_1 Povinné (A) kurzy mají logickou časovou posloupnost. Q8_2 Obsahy jednotlivých povinných (A) kurzů se nepřekrývají. Q8_3 Jsem spokojen/a s tematickou šíří nabídky povinně volitelných (B) kurzů. Q8_4 Jsem spokojen/a s počtem nabízených povinně volitelných (B) kurzů.

Page  10 Definování proměnných Druh proměnné Zápis baterie otázek

Page  11 Třídění prvního stupně Sleduje se četnost výskytu jednotlivého znaku Kolik je v souboru mužů a žen Kolik je v souboru lidí, kteří chodí do knihovny atd… Sledujeme základní statistické míry znaků

Page  12 Třídění prvního stupně Absolutní četnosti -Absolutní číslo – kolik případů má danou vlastnost -Součet absolutních četností u všech hodnot (včetně missing values) = celkový počet respondentů (V souboru je 71 žen.) Relativní četnosti -Jaký podíl (v procentech z výběrového souboru) představují případy s jednotlivou vlastností (V souboru je 34 % osob se středoškolským vzděláním.) Kumulativní relativní četnosti (V souboru je 52 % osob s alespoň středoškolským vzděláním.)

Page  13 Rozložení hodnot proměnných Relativní četnosti bez „missing values“ „Missing“ do grafů nezařazujeme (počítáme jen s těmi, kteří odpověděli)

Page  14 Zobrazování výsledků Koláčové, sloupcové grafy

Page  15 Zobrazování výsledků Koláčové, sloupcové grafy

Page  16 Deskriptvní statistika a čištění dat První krok při každém zpracování dat „GIGO“ (Garbage in, garbage out) Outliers (extrémní hodnoty) Podíváme se na nejvyšší a nejnižší hodnoty (SPSS najde automaticky) Zdroje obrázků: Psychwiki,

Page  17 Charakteristiky rozložení proměnné: modus, medián, průměr MODUS U nominálních proměnných Nejčastěji obsazená kategorie/hodnota proměnné MEDIÁN U nominálních a ordinálních (pořadových) proměnných Nejméně 50 % hodnot je menších nebo rovno mediánu a nejméně 50 % hodnot je větších nebo rovných mediánu Není ovlivněn extrémními hodnotami Pokud má soubor sudý počet prvků, dvě varianty (rozdílný výklad): za medián označuje aritmetický průměr hodnot na místech n/2 a n/2+1 Medián nelze určit

Page  18 Charakteristiky rozložení proměnné: modus, medián, průměr Medián = kvantil Kvartil Decil Percentil

Page  19 Charakteristiky rozložení proměnné: modus, medián, průměr ARITMETICKÝ PRŮMĚR Citlivý na extrémní hodnoty Aplikovatelná jen u kardinálních znaků Často udává hodnotu, která se v souboru vůbec nevyskytuje (průměrný Čech navštíví knihovnu 1,12krát za rok) Kardinální znaky – nemá cenu vytvářet frekvenční tabulku nebo klasické grafy – využívá se histogram

Page  20 Normální rozložení Normální rozložení: modus = medián = průměr Asymetrie rozložení = šikmost

Page  21 Ukázka šikmého rozložení

Page  22 Ukázka šikmého rozložení

Page  23 Rozložení u kardinálních dat Rozpětí: rozdíl mezi nejmenší a nejvyšší hodnotou Rozptyl: vypovídá o rozložení hodnot kolem aritmetického průměru (průměrná čtvercová chyba (ve čtvercích jednotek původní proměnné) – součet druhých mocnin odchylek všech jednotlivých hodnot od průměru dělený rozsahem souboru Směrodatná odchylka: Druhá odmocnina rozptylu ukazuje homogenitu/variabilitu souboru čím menší SO je, tím více můžeme věřit aritmetickému průměru

Page  24 Průměr a standardní odchylka

Page  25 Transformace dat a proměnných Kategorizace spojitých proměnných (CATEGORIZE)  vytvoření intervalů Otázka: Proč je důležité rekategorizovat proměnné? Slučování kategorií (spíše spokojen – velice spokojen = spokojen) Otázka: Kdy je vhodné slučovat proměnné? Otázka: Lze slučovat i nominální proměnné? COUNT – vytváří novou proměnnou (pro sady otázek – kolik z nabízených možností respondent zvolil)

Page  26 Připomeňme si… Hypotéza proměnnéotázky v dotazníku Hypotéza: Lidé s vyšším vzděláním navštěvují knihovny častěji, než lidé s nižším vzděláním. Proměnné: vzdělání, frekvence návštěv knihovny Otázky: Jaké je Vaše nejvyšší ukončené vzdělání? Jak často navštěvujete knihovnu?

Page  27 Třídění druhého stupně Porovnání rozložení znaku v podsouborech populace (dle jiného znaku) Hypotézy nás vedou v tom, jaké vlastnosti a jejich souvislosti sledovat Kdy to má smysl: Jedná-li se o reprezentativní výběrový soubor (ideálně náhodný výběr) Jde-li o nezávislý výběr

Page  28 Jak statistika vypovídá o základním souboru? Hlavní roli hraje směrodatná odchylka / výběrová chyba: S 95% jistotou (5% riziko chyby) můžeme tvrdit, že: průměr základního souboru (parametr) = průměr výběrového souboru (statistika) ± 2 směrodatné chyby S 99% jistotou (1% riziko chyby) můžeme tvrdit, že: průměr základního souboru (parametr) = průměr výběrového souboru (statistika) ± 3 směrodatné chyby

Page  29 Statistické testování hypotéz 1.Testování nulové hypotézy o neexistenci vztahu mezi proměnnými 2.Hypotéza zamítnuta  testování alternativní hypotézy Příklad nulové hypotézy: Rozložení četností hodnot proměnné (vlastností jednotky), např. příjmu, věku, míry anomie, spokojenosti v životě (atd.) ve výběrovém souboru odpovídá rozložení proměnné v populaci. Mezi vzděláním a výší příjmu není žádný vztah.

Page  30 Testy pro statistické testování nulových hypotéz T-test o shodě dvou průměrů (parametrický test) Man-Whitney test (neparametrický test) Zlaté pravidlo pro induktivní statistiku: vysoká hodnota testu signifikance (tj.   0,05)  držíme nulovou hypotézu nízká hodnota testu signifikance (tj.   0,05)  zamítáme nulovou hypotézu

Page  31 Porovnávání průměrů Směrodatná odchylka u normálního rozložení: 68 % případů < 1 směrodatná odchylka 95 % případů < 2 směrodatné odchylky 99 % případů < 3 směrodatné odchylky

Page  32 Tabulky rozložení

Page  33 Grafy