Kvantitativní metody výzkumu v praxi

Slides:

Advertisements

Podobné prezentace

Advertisements

Statistická indukce Teorie odhadu.

Testování neparametrických hypotéz

Kvantitativní metody výzkumu v praxi

Testování statistických hypotéz

Odhady parametrů základního souboru

Statistika Vypracoval: Mgr. Lukáš Bičík

Základní statistické pojmy a postupy

Varianty výzkumu Kroky výzkumu Výběrový soubor

Obsah statistiky Jana Zvárová

MUDr. Michal Jurajda, PhD. ÚPF LF MU

Řízení a supervize v sociálních a zdravotnických organizacích

Kontingenční tabulky Závislost dvou kvalitativních proměnných.

Analýza kvantitativních dat II. / Praktikum Vícenásobné výběrové otázky (Multiple response) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.

Kvantitativní metody výzkumu v praxi 4a. část Jiří Šafr UK FHS Řízení a supervize v sociálních a zdravotnických organizacích (ZS 2005)

ZÁKLADNÍ SOUBOR Základní soubor (populace) je většinou myšlenková konstrukce, která obsahuje veškerá data, se kterými pracujeme a není vždy snadné jej.

Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.

Lineární regresní analýza

- Pojmy - SPSS Statistické zpracování kvantitativních šetření.

Kurz SPSS: Jednoduchá analýza dat

DKV část 31 Design kvantitativního výzkumu 4. část ( ) Jiří Šafr UK FHS Historická sociologie (LS 2010)

Pohled z ptačí perspektivy

Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.

Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.

Analýza kvantitativních dat I. Vztahy mezi 3 znaky v kontingenční tabulce - úvod Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace

Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.

Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.

TECHNIKY SBĚRU DAT KVANTITATIVNÍ KVALITATIVNÍ VÝZKUM VÝZKUM

Design kvantitativního výzkumu

Praktikum 4c: Tabulky, baterie otázek 16/5/08. Tabulky - metoda popisu dat.

Kvantitativní metody výzkumu v praxi

Základy pedagogické metodologie

Metody sociálního výzkumu 5. blok Denní studium LS 2007/

Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz

Popisná analýza v programu Statistica

Inferenční statistika - úvod

Typy výzkumu  Kvantitativní  Kvalitativní  Smíšený  První zkoumá kolik lidí si co myslí atd …  Druhý co přesně si lidé myslí  Třetí je kombinací.

Aplikovaná statistika 2.

Kvantitativní metody výzkumu v praxi PRAKTIKUM

Základy statistiky Základní pojmy. Základy statistiky Statistiku můžeme chápat jako činnost - získávání stat. údajů, jejich zpracování a vyhodnocení jako.

Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.

Měření v sociálních vědách „Měřit všechno, co je měřitelné, a snažit se učitnit měřitelným vše, co dosud měřitelné není“. (Galileo Galilei)

Odhady odhady bodové a intervalové odhady

INDUKTIVNÍ STATISTIKA

Varianty výzkumu Kroky výzkumu Výběrový soubor

Základy statistické indukce

Kvantitativní metody výzkumu v praxi

Induktivní statistika

Induktivní statistika

- váhy jednotlivých studií

Popisná statistika: přehled

Popisná analýza v programu Statistica

Induktivní statistika

Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.

Spojitá a kategoriální data Základní popisné statistiky

Kvantitativní metody výzkumu v praxi PRAKTIKUM

Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:

ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných

Sociologický výzkum II.

Typy proměnných Kvalitativní/kategorická binární - ano/ne

Neparametrické testy pro porovnání polohy

Metodologie pro ISK 2 Úvod do práce s daty

Metodologie pro ISK 2 Kontrola dat Popis kategorizovaných dat

Statistika a výpočetní technika

Analýza kardinálních proměnných

Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz

Základy statistiky.

Základy popisné statistiky

Náhodné výběry a jejich zpracování

Transkript prezentace:

Kvantitativní metody výzkumu v praxi UK FHS Řízení a supervize v sociálních a zdravotnických organizacích (ZS 2013+) Kvantitativní metody výzkumu v praxi Výběry z populace, příprava dat, popisné statistiky Jiří Šafr jiri.safr(at)seznam.cz (poslední aktualizace 15.12.2015, 15.1.2014)

Obsah části 4a Sběr dat Typy sběru dotazníku Chyby měření: Výběrová a nevýběrová chyba Výběry z populací Příprava dat a základní analýza Vytváření souboru dat Tabulky Kontingenční tabulka Vlastnosti rozdělení znaků Jednoduché popisné statistiky Několik rad jak číst statistiky Základní typy grafů KMVP část 4a

Typy sběru dotazníku (opakovaní) vyplňovaný tazatelem osobní počítačové dotazování CAPI (Computer Assited Personal Interviewing) telefonní počítačové dotazováníCATI (Computer Assited Telephone Interviewing) dotazování elektronickou poštou CAMI (Computer Assited Mailing Interviewing) hromadně vyplňovaný dotazník v jedné místnosti poštou distribuovaný dotazník (tam i zpět / zpět) anketa v tisku - není výběrem! KMVP část 4a

V KV zkoumáme hromadné jevy!

Výběry z populace Princip zobecnění na populaci: Populace (základní soubor) → výběr/vzorek → populace (zobecnění)

Chyby měření Při interpretaci a analýze výsledků z výběrových dat je třeba mít neustále na paměti, že vznikly zpracováním dat získaných z výběrového šetření (populace→vzorek). → všechny (publikované) údaje jsou pouze odhady zatížené určitou chybou a nikoliv přesná čísla. Tato chyba má dvě složky: výběrovou a nevýběrovou. KMVP část 4a

Přesnost → chyby měření S výběrovými šetřeními jsou v sociálních vědách spjaty tzv. výběrové a nevýběrové chyby. Nevýběrové chyby (nonsampling error): odmítnutí odpovědi, chyby při pořizování dotazníku. → nelze kvantifikovat vychýlení odhadu. (ty se objevují i v případě šetření celé populace - cenzu) Výběrové chyby (sampling error): vznikající vztažením charakteristik výběrového souboru na celý základní soubor vliv: velikosti výběru, metody výběru, velikosti populace lze je interpretovat pomocí tzv. intervalů spolehlivosti = intervaly zkonstruované kolem bodového odhadu tak, že s určitou pravděpodobností skutečná hodnota odhadované charakteristiky (tj. v celé populaci) leží právě v tomto intervalu. Nejčastěji se u odhadů konstruuje 95% interval spolehlivosti v něm s 95% pravděpodobností leží skutečná hodnota odhadované charakteristiky (připouštíme 5 % chybu) KMVP část 4a

Nevýběrová chyba vyskytuje se u všech forem zjišťování (tedy i u vyčerpávajících – cenzovních šetření celé populace) Vzniká z důvodu: špatné práce v případné fázi výzkumu (konceptualizace, operacionalizace) neochotou respondentů sdělovat úplné a přesné informace atd. → validita nedokonalé metodiky, jejího nepřesného dodržování chybnými postupy při zpracování dat významně ovlivnit ji lze precizní prací ve všech fázích přípravy a průběhu šetření zhodnotit její vliv na výsledky je obtížné (možností je např. porovnání s údaji zjištěnými při úplném cenzu, pokud je máme k dispozici) KMVP část 4a

Výběrová chyba Populace → výběr → populace Vybírá se náhodně (bez vracení) pouze jeden výběrový soubor a údaje z něho reprezentují základní soubor (populaci). Chybu způsobenou volbou výběrového souboru lze s určitou předem zvolenou pravděpodobností vymezit na základě teorie výběrových šetření KMVP část 4a

Velikost výběrové chyby lze vyjádřit buď Standardní (směrodatnou) chybou - bodovým odhadem rozptylu/směrodatné odchylky nebo intervalem spolehlivosti pro odhad sledovaného ukazatele. → interval, ve kterém s 95 % pravděpodobností leží skutečná hodnota odhadované charakteristiky v celé populaci Nejčastěji se okolo odhadu konstruuje tzv. 95 % interval spolehlivosti (vynásobením směrodatné odchylky odhadu kvantilem normovaného normálního rozdělení, tj. hodnotou 1,96). KMVP část 4a

Intervaly spolehlivosti (CI) → princip intervalového odhadu Odhadujeme parametry základního souboru (populace) jsou-li nám známy pouze charakteristiky výběru Při intervalovém odhadování se charakteristika základního souboru popisuje pomocí intervalu, k níž se přidává pravděpodobnost, že odhad bude správný → spolehlivost odhadu (1-α). Použití pro průměr, podíl (%), rozptyl, korelační koeficient … Obecně CfI lze vyjádřit: Bodový odhad ± Koeficient spolehlivosti pro zvolenou hladinu x Směrodatná chyba odhadu Např. pro 95 % CfI a procentní údaj ohledně účasti ve volbách: Se spolehlivostí 95 % můžeme tvrdit, že podle zjištění výzkumu půjde volit 62,8 % (± 2,7 %) občanů, tj. v rozmezí 60,1 až 65,5 %. KMVP část 4a

Výsledky výběrových šetření jsou vždy jen odhadem skutečného parametru (v populaci). Jejich přesnost je závislá především na velikosti výběrového souboru a podílu hodnot daného znaku. Orientační pomůcka: pro náhodný vzorek z velké (národní) populace cca N=1000 se skutečné (populační) relativní četnosti (procenta) pohybují v těchto intervalech: Zdroj: [Special Eurobarometer 337] Ale jde to jednoduše spočítat přesně a navíc pro jakoukoliv hodnotu a míru (%, průměr, rozdíl %, korelace, …), viz např. http://metodykv.wz.cz/AKD2_CfI_1.ppt KMVP část 4a

Viz dále co je náhodný výběr Vše předchozí funguje pouze za předpokladu náhodného (prostého) výběru! Viz dále co je náhodný výběr

Kvalita výběru Chyba klesá s rostoucí velikostí vzorku a vzrůstající homogennosti populace → získáme užší interval spolehlivosti. Velikost směrodatné chyby a intervalu spolehlivosti nezávisí na velikosti populace. KMVP část 4a

NONRESPONSE The cause of concern about nonresponse is the risk that nonrespondents will differ from respondents with regard to the survey variables, in which case the survey estimates based on the respondents alone will be biased estimates of the overall population parameters. [Kalton 1983: 63] KMVP část 4a

Typy výběrů Pravděpodobnostní - náhodné Prostý náhodný Vícestupňový náhodný Stratifikovaný náhodný Nepravděpodobnostní Kvótní výběr Systematický Úsudkem Nabalováním [Jeřábek 1993: 44] KMVP část 4a

Pravděpodobnostní náhodný výběr každý z populace má stejnou pravděpodobnost, že bude vybrán reprezentuje všechny známé i neznámé vlastnosti populace Při zkoumání vzácného jevu řídce vyskytujícího se v populaci nemusí náhodný výběr být tím nejlepším. [Babbie 1995: 207] KMVP část 4a

Prostý náhodný výběr vyžaduje nějakou oporu výběru – seznam reprezentující základní soubor, ze kterého budeme vybírat (losovat). KMVP část 4a

KMVP část 4a [Babbie 1995]

Vícestupňový náhodný výběr kroky: Základní soubor rozdělíme do podsouborů (přirozená seskupení). z nich vybereme skupiny (můžeme více kroků) a v nich teprve jedince Příklad. Vybíráme postupně: 1. okresy → 2. obce → 3. volební okrsky → 4. respondenty Respondent v domácnosti je také vybrán náhodně! Na rozdíl od stratifikovaného výběru jsou skupinky vzájemně zastupitelné. KMVP část 4a

Výhody vícestupňového náhodného výběru nepotřebujeme seznam celé populace (ten málokdy existuje) kompaktnější výběr (koncentrace do určitých regionů) šetří náklady na organizaci tazatelé „neběhají“ po celé zemi. KMVP část 4a

Stratifikovaný (oblastní) náhodný výběr [Babbie 1995: 211] Populaci rozdělíme do homogenních skupin podle nějakého společného kritéria (např. školní třídy). V těchto skupinách provedeme náhodný výběr strata (oblasti): uvnitř homogenní, mezi sebou odlišné Výhodou je SNV je, že snižuje velikost směrodatné odchylky. Vhodný pro odhad rozdílů mezi skupinami KMVP část 4a

Nepravděpodobnostní výběry

Kvótní výběr výběr na základě splnění kritérií daných kvótou počet kvót max. 3-5 kvóty: nezávislé nebo vzájemných vazbách musí být viditelné lze použít jen na populaci, kterou dobře známe (kvantitativní statistická opora o populaci) obtížně dostupné skupiny lze nadhodnotit KMVP část 4a

Kvótní výběr Výhody: levnější než náhodný výběr rychlejší, operativnější není třeba pořizovat seznamy (oporu) základního souboru KMVP část 4a

Kvótní výběr Nevýhody: nelze stanovit výběrovou chybu a určit přesnost ukazatelů předpokladem je znalost základních informací o základním souboru je reprezentativní jen z hlediska znaků použitých v kvótách. KMVP část 4a

Systematický výběr částečně náhodný → s náhodným počátkem založen na pevně zvoleném kroku výběru ze základního seznamu jednotek není zaručeno náhodné pořadí jednotek v souboru (může existovat skrytá pravidelnost v seznamu). KMVP část 4a

KMVP část 4a [Babbie 1995]

Výběr nabalováním (snowball sampling) pro speciální, hůře dostupné populace jakmile se osoby opakují, výběr ukončíme KMVP část 4a

„NEvýběry“ nereprezentují celou populaci! Živelný výběr „street corner sampling“ Výběr toho, na koho narazíme jako první. Výběr úsudkem Záměrný výběr často znalcem jako „průměrné jednotky“→ nejednoznačnost → nepřípustné! Anketa Dotazník v tisku / na internetu KMVP část 4a

Velikost výběrového vzorku Záleží na homogennosti populace a úrovni třídění, tj. kolik proměnných (a jaké - kolik mají kategorií) chceme v analýze postavit proti sobě. Princip „dostatečného“ výběru pro adekvátní statistické zpracování: relevantní kategorie zastoupena v poli tabulky alespoň 5 případy. Pro tabulku 5 x 4 tedy nestačí celkem 20 případů, to by znak v populaci musel být homogenní. Pozor, respondenti musí být skutečně náhodně vybraní. Tedy ne jen ti, kdo byli ochotní odpovídat! KMVP část 4a

Velikost výběrového vzorku U „velmi malých populací“ (do cca 50) neexistuje univerzální pravidlo velikosti výběrového vzorku. Neboť v každém případě je vzorek pro běžné statistické metody příliš malý. Proto je korektní šetřit celý základní soubor, nebo aplikovat kvalitativní metody výzkumu. Výběrový soubor z „malé populace“ např. zaměstnanců nějakého podniku nebo obyvatel obce (nad cca 50 do cca 200-300 lidí), by velmi orientačně měl představovat cca 20 %, minimálně ale 30 případů. Nicméně, nejedná se o žádné pravidlo! Viz tabulku určování doporučené velikosti vzorku . [Gatnar, L.] KMVP část 4a

Tabulka na určování doporučené velikosti vzorku s 5% chybou vzorku pro 95% významnost (předpokládaná úroveň vzorku 50 %) [Hague 2003: 95] KMVP část 4a

Aneb co s vyplněnými dotazníky … Soubor dat Aneb co s vyplněnými dotazníky …

Případy (respondenti) Datová matice Případy (respondenti) Proměnná Hodnoty KMVP část 4a

Vytváření souboru dat

Převod dotazníků na elektronický soubor dat vytvoření kódovacího klíče (codebook) kódování (dle kódovacího klíče) vytvoření datové matice nahrávání dat (do datové matice - „děrování“) čištění dat rekódování KMVP část 4a

Chybějící hodnoty – označování a překódování Typy chybějících hodnot a jejich nejčastější kódování: neví (8 / 88) neodpověděl (9 / 99) netýká se Chybějící hodnoty (missing values) jsou nejčastěji vyloučeny z analýzy. KMVP část 4a

Varianty řešení pro „neví“ vyloučit z analýzy kódovat jako missing value, např. hodnota 9 listwise deletion – plošné vylučování případů tj. u všech znaků, pokud se u jednoho objevila chybějící hodnota V odůvodněných případech lze i překódovat např. na střední hodnotu. Př. Hodnocení prospěšnosti zavedení zimního času: 1 - uškodilo, 2 - uškodilo trochu, 3 - prospělo trochu, 4 - prospělo. Překódováno na: 1 - uškodilo, 2 - uškodilo trochu, 3 – neví, 4 - prospělo trochu, 5 - prospělo. KMVP část 4a

Nové – syntetické proměnné Jednoduché rekódy nebo typologie Odpovědi z jedné (či více) otázek slučujeme do nového znaku Souhrnný index – škála Nová proměnná, která vznikne z více otázek (proměnných). Je reliabilnější (přesněji měří zvolený koncept) a validnější (měří právě jen zvolený koncept). Ale nejprve třeba ověřit/vyladit viz http://kmvp.wz.cz/DKV_3_ukazky_dot.ppt KMVP část 4a

Zmínit se o všech manipulacích (překódování apod.) s daty je nezbytné! A to jak v dokumentaci k datům (codebook) tak i v textu zprávy (diplomky)

Několik málo poznámek k jednoduché deskriptivní analýze Lépe je to pro třídění v http://kmvp.wz.cz/KMVP_hypoteza_overeni_priklad.ppt Nebo v rámci kurzu Praktikum - elementární zpracování dat z kvantitativního výzkumu http://kmvp.wz.cz/index.htm#praktikum

Tabulky aneb jak provést popis/deskripci dat a intuitivně „ověřovat“ hypotézy (u kategorizovaných znaků)

Jednorozměrná analýza Distribuce případů pro jednu proměnnou (otázku v dotazníku) pro celkovou populaci

Jednorozměrná analýza – tabulka procentní základ a chybějící hodnoty Tabulka 1. Zastoupení manažerů podle věku, procenta, hypotetická data KMVP část 4a Zdroj: [Babbie 1997: 377]

Dvourozměrná analýza kategoriálních znaků Vztah dvou kategoriálních proměnných → porovnání podskupin (vliv nezávislé na závislou proměnnou) Podobný princip používáme, pokud je závislá proměnná kardinální (číselná) a nezávislá kategoriální → porovnáváme průměry v podskupinách.

Čtyřpolní (2x2) tabulka – nejjednodušší situace (obě proměnné jsou dichotomické)

Čtyřpolní (2x2) tabulka Marginální (okrajové) četnosti Celkový počet pozorování KMVP část 4a [Lamser, Růžička 1970: 260]

nezávislá proměnná (pohlaví) Nejprve příklad: Procenta v 2x2 tabulce → porovnání subpopulací závislá proměnná (genderová rovnost) nezávislá proměnná (pohlaví) [Babbie 1997: 386]

Postup: uvnitř každé skupiny podle genderu oddělíme ty, kdo jsou pro rovnoprávnost a ty kdo jsou proti (→ závislá proměnná). ženy muži [Babbie 1995: 386-387] KMVP část 4a

Sloupcová procenta → pro muže a ženy zvlášť Rozdíl je 20 procentních bodů KMVP část 4a [Babbie 1997: 387]

Relativní četnosti – procenta v kontingenční tabulce Relativní sloupcové četnosti = součet v každém sloupci reprezentuje 100% Relativní řádkové četnosti = součet v každém řádku reprezentuje 100% Existují také celková procenta z celé tabulky (1 políčko z celku), ty ale pro interpretaci vztahů nepoužíváme. V tabulce jsou také marginální (okrajové) četnosti → třídění prvního stupně pro jeden znak (záleží na tom, zda jde o řádková nebo sloupcová %) KMVP část 4a

Kontingenční tabulky Situaci čtyřpolní (2 x 2) tabulky můžeme zobecnit jako n × i, např. 2 x 3 nebo 3 x 3 Při interpretaci je pak pouze důležité, zda jsou jedna nebo obě proměnné nominální nebo ordinální. kategoriální znaky mohou v zásadě být: dichotomické → 0/1 (např. volil/nevolil) multinominální → více jak 2 nominální kategorie (např. Studium: HiSo-denní / HiSo-kombi / KŘS) ordinální → máme pořadí kategorií (např. Vzdělání: 1. ZŠ, 2. VY, 3. SŠ, 4. VŠ) KMVP část 4a

Interpretace a uspořádání tabulek závislá proměnná = je v hypotéze ovlivňována, způsobována (nejčastěji je v řádcích) nezávislá(é) proměnná = vysvětluje, ovlivňuje závislou V kategoriích nezávislé proměnné ukazujeme kompletní (100 %) distribuci závislé proměnné. Pozor! Směr kauzality je vždy věcí teorie, nelze ji určit z dat samotných. [Kreidl 2000] KMVP část 4a

NEZÁVISLÁ – vysvětlující proměnná Uspořádání kontingenční tabulky sloupcová procenta: V kategoriích nezávislé proměnné ukazujeme kompletní (100 %) distribuci závislé proměnné. NEZÁVISLÁ – vysvětlující proměnná ZÁVISLÁ – vysvětlovaná proměnná Samostatnost Zájem o službu os. asistence Nízká Vysoká Celkový součet Zájem 41 % 66 % (2) 7 Nezájem 59 % 34 % (6) 8 100 % (12) 100 % (9) 21 Nejčastěji bývá závislá proměnná nalevo v řádcích a nezávislá (vysvětlující) ve sloupcích (není to ale podmínkou, záleží na počtu kategorií, a jak se nám to vejde na stránku; lze o 90st. otočit). Vždy tak aby, v kategoriích nezávislé proměnné byla kompletní (100 %) distribuce závislé proměnné. KMVP část 4a

Nelogické uspořádání tabulky → řádková procenta pro závislou (vysvětlovanou) proměnnou, která je v řádcích pohlaví spokojenost muž žena Celkový součet 1 (nespokojen) 5 (71 %) 2 (29 %) 7 (100 %) 2 5 (83 %) 1 (27 %) 6 (100 %) 3 (spokojen) 2 (25 %) 6 (75 %) 8 (100 %) 12 9 21 (100 %) Názory nemohou ovlivňovat pohlaví ! Nicméně, tabulku lze mít s řádkovými procenty, pak ale musí být závislá proměnná (zde Spokojenost) ve sloupcích (jde tedy o předchozí tabulku ale otočenou o 90 st.) Vždy musí platit, že v kategoriích nezávislé proměnné ukazujeme kompletní (100 %) distribuci závislé proměnné. KMVP část 4a

Interpretace tabulky pro Ordinální znaky Na vztah ordinálních znaků často ukazuje kupení vysokých hodnot na diagonále (ale ne nezbytně !) Tabulku lze otočit o 90st: zaměnit řádky se sloupci a řádková % KMVP část 4a

Interpretace tabulek Tabulky skoro vždy dělejte tak, aby vyjadřovaly podmíněnou pravděpodobnost, že respondent (věc) bude patřit do jednotlivých kategorií závislé proměnné, za předpokladu, že patří do dané kategorie nezávislé proměnné(ných). Procento je stým násobkem pravděpodobnosti. [Kreidl 2000] KMVP část 4a

Souvislost znaků v tabulce Kupení vysokých hodnot na diagonále tabulky naznačuje, že existuje souvislost mezi proměnnými. Souvislost ale může mít i jinou formu, např. v každém sloupci jsou pozorování nahromaděna do jediného pole, jehož pozice je pro každý sloupec jiná. KMVP část 4a

Porovnání podskupin rozdělte případy do adekvátních podskupin (dle hypotéz, např. podle vzdělání) popište proměnnou pro podskupiny pomocí zvolených statistik (např. medián, průměr, procenta) srovnejte tyto údaje pro skupiny KMVP část 4a

Interpretace tabulek Při interpretaci procent obvykle stačí porovnávat extrémní hodnoty a ignorovat střední kategorie. Pokud jde o ordinální proměnné pak není dobré činit obsáhlé závěry na základě % uvnitř jednotlivých kategorií nezávislé proměnné. Smysluplné je dělat porovnání distribucí napříč kategoriemi nezávislé proměnné. Buďte opatrní a neberte názvy kategorií zas tak doslova. KMVP část 4a [Kreidl 2000]

Pravidla pro tvorbu tabulek [Kreidl 2000] Tabulka musí mít název a popsané proměnné (řádky a sloupce). Vždy uvést zdroj dat. Uvést celkový počet případů (marginální distribuce absolutních četností). KMVP část 4a

V názvu tabulky uvést: typ tabulky např. Procentní distribuce ... nebo ... (%) proměnné zahrnuté v tabulce, např. Religiozita a Úroveň vzdělání z jakého vzorku pocházejí data rok sběru dat Př. Procento uživatelů marihuany podle dosaženého vzdělání, středoškoláci, 1997. KMVP část 4a

Pravidla pro tvorbu tabulek Samotná procenta říkají málo nebo nic. → nezamlčovat absolutní četnosti (stačí marginální = řádkové, sloupcové a celkový počet případů). V první řádce či sloupci uvést znak pro %, aby bylo jasné, že se jedná tabulku pro procenta. KMVP část 4a

Pravidla pro tvorbu tabulek Kontrolovat sama sebe tím, že vždy sečtete čísla v jednotlivých řádcích a sloupcích a porovnáte je se skutečnými marginálními četnostmi (z tabulek tř. 1st.). Celá čísla v % v tabulkách většinou bohatě stačí. 23,48 % → 23 % [Kreidl 2000] KMVP část 4a

Jednoduché popisné statistiky Nejen pro číselné-kardinální znaky

Střední hodnoty: nominální znaky → modus ordinální znaky → medián (aritmetický průměr) intervalové znaky → aritmetický průměr KMVP část 4a

Modus = kategorie s největší četností Medián = hodnota, která je ve prostředku všech pozorování seřazených podle hodnoty Aritmetický průměr = součet hodnot dělený počtem pozorování KMVP část 4a

Modus KMVP část 4a [Babbie 1995]

Medián KMVP část 4a [Babbie 1995]

Průměr KMVP část 4a [Babbie 1995]

Charakteristiky variability Udávají koncentraci nebo rozptýlení kolem střední hodnoty. Rozptyl = součet kvadratických odchylek od průměru dělený rozsahem výběr zmenšeným o 1. Směrodatná odchylka = odmocnina z rozptylu. Ukazují na „kvalitu“ průměru. KMVP část 4a

Výpočet směrodatné odchylky Příklad. Máme pozorování: 7 2 5 4 3 1 8 2 6 2 Součet řady = 40; n = 10; průměr = 40/10 = 4 Odchylky: 3 -2 1 0 -1 -3 4 -2 2 -2 součet odchylek je 9 – 9 = 0 čtverce odchylek: 9; 4; 1; 1; 0; 1; 9; 1; 6; 4; 4; 4 součet čtverců odchylek = 52 průměrná čtvercová odchylka tj. rozptyl = 5,2 směrodatná odchylka (odmocnina z rozptylu) = 2,28 KMVP část 4a

Další popisné statistiky Minimum / maximum Rozpětí Kvantily: dolní a horní kvartil Koeficienty šikmosti KMVP část 4a

Vlastnosti rozdělení kardinálních (spojitých) znaků

Symetrie, variabilita KMVP část 4a [Hanousek, Charamza 1992: 21]

Šikmost a špičatost KMVP část 4a [Hanousek, Charamza 1992: 21]

Zde jsme si ukázali (pouze) deskriptivní analýzu, pokud data pochází z náhodného výběru, pak je třeba ještě platnost hypotéz ověřit pomocí principů inferenční statistiky (intervalové odhady a statistické testy hypotéz).

Několik rad jak číst statistiky [Hanousek, Charamza 1993: 34-35]

Při čtení statistik pozor na: „přesná“ čísla ve statistických zprávách procenta versus absolutní čísla srovnatelné údaje nezaměňovat ukazatele je porovnání vhodné? na výběry (nebyly-li provedeny profesionály) podobu otázek (znění) vlastní příprava zjišťování (experimentu) „v nemocnici umírají lidé častěji než doma“ [Hanousek, Charamza 1993: 34-35] celé viz soubor Pozor_statistika.pdf KMVP část 4a

Základní typy grafů Pro třídění 1. a 2. stupně

rozložení hodnot jednoho znaku (popisné statistiky a hypotéza 1.řádu) Třídění 1. stupně rozložení hodnot jednoho znaku (popisné statistiky a hypotéza 1.řádu)

Histogram – pro kardinální (spojité) proměnné KMVP část 4a

Barchart → četnosti kategorií kategorizovaného znaku (zde nominální znak Kraj) KMVP část 4a

Alternativně: Koláčový graf (Pie chart), v % KMVP část 4a

Třídění 2. stupně a tedy i test hypotéz druhého řádu (hodnoty 1. proměnné podle hodnot 2. proměnné)

Barchart: pro třídění 2.stupně Kategoriální (nominální, ordinální) znaky Zájem o politiku podle pohlaví Odpovídá kontingenční tabulce KMVP část 4a

Barchart pro třídění 2.stupně Příklad: Zájem o politiku podle pohlaví Nezávislá proměnná Součet v kategoriích = 100 % Závislá proměnná KMVP část 4a Zdroj: ISSP 2007

Bodový X-Y graf (scatter plot) Kardinální (spojité-číselné) znaky Odpovídá korelačnímu koeficientu (a regresní analýze) KMVP část 4a

Spojitá (závislá) × kategoriální (nezávislá) V principu porovnáváme průměry závislé – spojité v kategoriích nezávislé proměnné proměnné (+ lze i kontrola rozptylu/směrodatné odchylky nebo interval spolehlivosti ve skupinách) Odpovídá analýze rozptylu (koeficientu EtaSq) KMVP část 4a

Literatura Babbie, E. (1995). The Practice of social Research. 7th Edition. Belmont: Wadsworth Disman, M. (1993): Jak se vyrábí sociologická znalost. Praha: Karolinum Hanousek J., Charamza P. (1992). Moderní metody zpracování dat – Matematická statistika pro každého. Praha: Grada. Kreidl, M. (2000). Podklady ke kurzu Analýza kvantitativních dat. FSV UK, LS 2000-2001. Jeřábek, H. (1993): Úvod do sociologického výzkumu. Praha: Karolinum Poděkování za cenné konzultace RNDr. L. Gatnarovi. KMVP část 4a