Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Kvantitativní metody výzkumu v praxi

Podobné prezentace


Prezentace na téma: "Kvantitativní metody výzkumu v praxi"— Transkript prezentace:

1 Kvantitativní metody výzkumu v praxi
UK FHS Řízení a supervize v sociálních a zdravotnických organizacích (ZS 2013) Kvantitativní metody výzkumu v praxi Výběry z populace, příprava dat, popisné statistiky Jiří Šafr jiri.safr(at)seznam.cz (poslední aktualizace )

2 Obsah části 4a Sběr dat Typy sběru dotazníku Výběry z populací
Příprava dat a základní analýza Vytváření souboru dat Tabulky Kontingenční tabulka Vlastnosti rozdělení znaků Jednoduché popisné statistiky Několik rad jak číst statistiky Základní typy grafů KMVP část 4a

3 Typy sběru dotazníku (opakovaní)
vyplňovaný tazatelem osobní počítačové dotazování CAPI (Computer Assited Personal Interviewing) telefonní počítačové dotazováníCATI (Computer Assited Telephone Interviewing) dotazování elektronickou poštou CAMI (Computer Assited Mailing Interviewing) hromadně vyplňovaný dotazník v jedné místnosti poštou distribuovaný dotazník (tam i zpět / zpět) anketa v tisku - není výběrem! KMVP část 4a

4 Výběry z populace Princip zobecnění na populaci:
Populace (základní soubor) → výběr/vzorek → populace (zobecnění)

5 Kvalita výběru Chyba klesá s rostoucí velikostí vzorku a vzrůstající homogennosti populace → získáme užší interval spolehlivosti. Velikost směrodatné chyby a intervalu spolehlivosti nezávisí na velikosti populace. KMVP část 4a

6 Typy výběrů Pravděpodobnostní - náhodné Prostý náhodný
Vícestupňový náhodný Stratifikovaný náhodný Nepravděpodobnostní Kvótní výběr Systematický Úsudkem Nabalováním [Jeřábek 1993: 44] KMVP část 4a

7 Pravděpodobnostní náhodný výběr
každý z populace má stejnou pravděpodobnost, že bude vybrán reprezentuje všechny známé i neznámé vlastnosti populace Při zkoumání vzácného jevu řídce vyskytujícího se v populaci nemusí náhodný výběr být tím nejlepším. [Babbie 1995: 207] KMVP část 4a

8 Prostý náhodný výběr vyžaduje nějakou oporu výběru – seznam reprezentující základní soubor, ze kterého budeme vybírat (losovat). KMVP část 4a

9 KMVP část 4a [Babbie 1995]

10 Vícestupňový náhodný výběr
kroky: Základní soubor rozdělíme do podsouborů (přirozená seskupení). z nich vybereme skupiny (můžeme více kroků) a v nich teprve jedince Příklad. Vybíráme postupně: 1. okresy → 2. obce → 3. volební okrsky → 4. respondenty Respondent v domácnosti je také vybrán náhodně! Na rozdíl od stratifikovaného výběru jsou skupinky vzájemně zastupitelné. KMVP část 4a

11 Výhody vícestupňového náhodného výběru
nepotřebujeme seznam celé populace (ten málokdy existuje) kompaktnější výběr (koncentrace do určitých regionů) šetří náklady na organizaci tazatelé „neběhají“ po celé zemi. KMVP část 4a

12 Stratifikovaný (oblastní) náhodný výběr [Babbie 1995: 211]
Populaci rozdělíme do homogenních skupin podle nějakého společného kritéria (např. školní třídy). V těchto skupinách provedeme náhodný výběr strata (oblasti): uvnitř homogenní, mezi sebou odlišné Výhodou je SNV je, že snižuje velikost směrodatné odchylky. Vhodný pro odhad rozdílů mezi skupinami KMVP část 4a

13 Nepravděpodobnostní výběry

14 Kvótní výběr výběr na základě splnění kritérií daných kvótou
počet kvót max. 3-5 kvóty: nezávislé nebo vzájemných vazbách musí být viditelné lze použít jen na populaci, kterou dobře známe (kvantitativní statistická opora o populaci) obtížně dostupné skupiny lze nadhodnotit KMVP část 4a

15 Kvótní výběr Výhody: levnější než náhodný výběr
rychlejší, operativnější není třeba pořizovat seznamy (oporu) základního souboru KMVP část 4a

16 Kvótní výběr Nevýhody:
nelze stanovit výběrovou chybu a určit přesnost ukazatelů předpokladem je znalost základních informací o základním souboru je reprezentativní jen z hlediska znaků použitých v kvótách. KMVP část 4a

17 Systematický výběr částečně náhodný → s náhodným počátkem
založen na pevně zvoleném kroku výběru ze základního seznamu jednotek není zaručeno náhodné pořadí jednotek v souboru (může existovat skrytá pravidelnost v seznamu). KMVP část 4a

18 KMVP část 4a [Babbie 1995]

19 Výběr nabalováním (snowball sampling)
pro speciální, hůře dostupné populace jakmile se osoby opakují, výběr ukončíme KMVP část 4a

20 „NEvýběry“ nereprezentují celou populaci!
Živelný výběr „street corner sampling“ Výběr toho, na koho narazíme jako první. Výběr úsudkem Záměrný výběr často znalcem jako „průměrné jednotky“→ nejednoznačnost → nepřípustné! Anketa Dotazník v tisku / na internetu KMVP část 4a

21 Velikost výběrového vzorku
Záleží na homogennosti populace a úrovni třídění, tj. kolik proměnných (a jaké - kolik mají kategorií) chceme v analýze postavit proti sobě. Princip „dostatečného“ výběru pro adekvátní statistické zpracování: relevantní kategorie zastoupena v poli tabulky alespoň 5 případy. Pro tabulku 5 x 4 tedy nestačí celkem 20 případů, to by znak v populaci musel být homogenní. Pozor, respondenti musí být skutečně náhodně vybraní. Tedy ne jen ti, kdo byli ochotní odpovídat! KMVP část 4a

22 Velikost výběrového vzorku
U „velmi malých populací“ (do cca 50) neexistuje univerzální pravidlo velikosti výběrového vzorku. Neboť v každém případě je vzorek pro běžné statistické metody příliš malý. Proto je korektní šetřit celý základní soubor, nebo aplikovat kvalitativní metody výzkumu. Výběrový soubor z „malé populace“ např. zaměstnanců nějakého podniku nebo obyvatel obce (nad cca 50 do cca lidí), by velmi orientačně měl představovat cca 20 %, minimálně ale 30 případů. Nicméně, nejedná se o žádné pravidlo! Viz tabulku určování doporučené velikosti vzorku . [Gatnar, L.] KMVP část 4a

23 Tabulka na určování doporučené velikosti vzorku s 5% chybou vzorku pro 95% významnost (předpokládaná úroveň vzorku 50 %) [Hague 2003: 95] KMVP část 4a

24 Soubor dat

25 Případy (respondenti)
Datová matice Případy (respondenti) Proměnná Hodnoty KMVP část 4a

26 Vytváření souboru dat

27 Převod dotazníků na elektronický soubor dat
vytvoření kódovacího klíče (codebook) kódování (dle kódovacího klíče) nahrávání (datová matice - „děrování“) čištění dat rekódování KMVP část 4a

28 Souhrnný index – škála Nová proměnná, která vznikne z více otázek (proměnných). Je reliabilnější (přesněji měří zvolený koncept) a validnější (měří právě jen zvolený koncept). KMVP část 4a

29 Chybějící hodnoty – označování a překódování
Typy chybějících hodnot a jejich nejčastější kódování: neví (8 / 88) neodpověděl (9 / 99) netýká se Chybějící hodnoty (missing values) jsou nejčastěji vyloučeny z analýzy. KMVP část 4a

30 Varianty řešení pro „neví“
vyloučit z analýzy kódovat jako missing value, např. hodnota 9 listwise deletion – plošné vylučování případů tj. u všech znaků, pokud se u jednoho objevila chybějící hodnota V odůvodněných případech lze i překódovat např. na střední hodnotu. Př. Hodnocení prospěšnosti zavedení zimního času: 1 - uškodilo, 2 - uškodilo trochu, 3 - prospělo trochu, 4 - prospělo. Překódováno na: 1 - uškodilo, 2 - uškodilo trochu, 3 – neví, 4 - prospělo trochu, 5 - prospělo. KMVP část 4a

31 Zmínit se o všech manipulacích (překódování apod.) s daty je nezbytné!

32 aneb jak „ověřovat“ hypotézy (u kategorizovaných znaků)
Tabulky aneb jak „ověřovat“ hypotézy (u kategorizovaných znaků)

33 Pravidla pro tvorbu tabulek [Kreidl 2000]
Tabulka musí mít název a popsané proměnné (řádky a sloupce). Vždy uvést zdroj dat. Uvést celkový počet případů (marginální distribuce absolutních četností). KMVP část 4a

34 V názvu tabulky uvést: typ tabulky např. Procentní distribuce ... nebo ... (%) proměnné zahrnuté v tabulce, např. Religiozita a Úroveň vzdělání z jakého vzorku pocházejí data rok sběru dat Př. Procento uživatelů marihuany podle dosaženého vzdělání, středoškoláci, 1997. KMVP část 4a

35 Pravidla pro tvorbu tabulek
Samotná procenta říkají málo nebo nic. → nezamlčovat absolutní četnosti (stačí marginální = řádkové, sloupcové a celkový počet případů). V první řádce či sloupci uvést znak pro %, aby bylo jasné, že se jedná tabulku pro procenta. KMVP část 4a

36 Pravidla pro tvorbu tabulek
Kontrolovat sama sebe tím, že vždy sečtete čísla v jednotlivých řádcích a sloupcích a porovnáte je se skutečnými marginálními četnostmi (z tabulek tř. 1st.). Celá čísla v % v tabulkách většinou bohatě stačí. 23,48 % → 23 % [Kreidl 2000] KMVP část 4a

37 Třídění prvního stupně
frekvence jedné proměnné KMVP část 4a [Zdroj: Deset let transformace, 1999]

38 Třídění druhého stupně absolutní četnosti
frekvence jedné vs. druhé proměnné (kategorie příjmu podle vzdělání) [Zdroj: Deset let transformace, 1999] KMVP část 4a

39 Třídění druhého stupně – kontingenční tabulka relativní četnosti
[Zdroj: Deset let transformace, 1999] KMVP část 4a

40 Nejprve příklad: Procenta v tabulce. Porovnání subpopulací
KMVP část 4a

41 [Babbie 1995: ] KMVP část 4a

42 KMVP část 4a

43 Marginální četnosti Relativní sloupcové četnosti = součet v každém sloupci reprezentuje 100% Relativní řádkové četnosti = součet v každém řádku reprezentuje 100% KMVP část 4a

44 Interpretace a uspořádání tabulek
závislá proměnná = je v hypotéze ovlivňována, způsobována (nejčastěji je v řádcích) nezávislá(é) proměnná = vysvětluje, ovlivňuje závislou V kategoriích nezávislé proměnné ukazujeme kompletní (100 %) distribuci závislé proměnné. Pozor! Směr kauzality je vždy věcí teorie, nelze ji určit z dat samotných. [Kreidl 2000] KMVP část 4a

45 NEZÁVISLÁ – vysvětlující proměnná
Uspořádání kontingenční tabulky sloupcová procenta: V kategoriích nezávislé proměnné ukazujeme kompletní (100 %) distribuci závislé proměnné. NEZÁVISLÁ – vysvětlující proměnná ZÁVISLÁ – vysvětlovaná proměnná Pohlaví Spokojenost Muž Žena Celkový součet 1 (nespokojen) 41 % (5) 22 % (2) 7 2 11 % (1) 6 3 (spokojen) 16 % (2) 66 % (6) 8 100 % (12) 100 % (9) 21 Nejčastěji bývá závislá proměnná nalevo v řádcích a nezávislá (vysvětlující) ve sloupcích (není to ale podmínkou, záleží na počtu kategorií, a jak se nám to vejde na stránku; lze o 90st. otočit). Vždy tak aby, v kategoriích nezávislé proměnné byla kompletní (100 %) distribuce závislé proměnné. KMVP část 4a

46 Nelogické uspořádání tabulky → řádková procenta pro závislou (vysvětlovanou) proměnnou, která je v řádcích pohlaví spokojenost muž žena Celkový součet 1 (nespokojen) 5 (71 %) 2 (29 %) 7 (100 %) 2 5 (83 %) 1 (27 %) 6 (100 %) 3 (spokojen) 2 (25 %) 6 (75 %) 8 (100 %) 12 9 21 (100 %) Názory nemohou ovlivňovat pohlaví ! Nicméně, tabulku lze mít s řádkovými procenty, pak ale musí být závislá proměnná (zde Spokojenost) ve sloupcích (jde tedy o předchozí tabulku ale otočenou o 90 st.) Vždy musí platit, že v kategoriích nezávislé proměnné ukazujeme kompletní (100 %) distribuci závislé proměnné. KMVP část 4a

47 Interpretace tabulek Tabulky skoro vždy dělejte tak, aby vyjadřovaly
podmíněnou pravděpodobnost, že respondent (věc) bude patřit do jednotlivých kategorií závislé proměnné, za předpokladu, že patří do dané kategorie nezávislé proměnné(ných). Procento je stým násobkem pravděpodobnosti. [Kreidl 2000] KMVP část 4a

48 Souvislost znaků v tabulce
Kupení vysokých hodnot na diagonále tabulky naznačuje, že existuje souvislost mezi proměnnými. Souvislost ale může mít i jinou formu, např. v každém sloupci jsou pozorování nahromaděna do jediného pole, jehož pozice je pro každý sloupec jiná. KMVP část 4a

49 Porovnání podskupin rozdělte případy do adekvátních podskupin (dle hypotéz, např. podle vzdělání) popište proměnnou pro podskupiny pomocí zvolených statistik (např. medián, průměr, procenta) srovnejte tyto údaje pro skupiny KMVP část 4a

50 Interpretace tabulek Při interpretaci procent obvykle stačí porovnávat extrémní hodnoty a ignorovat střední kategorie. Pokud jde o ordinální proměnné pak není dobré činit obsáhlé závěry na základě % uvnitř jednotlivých kategorií nezávislé proměnné. Smysluplné je dělat porovnání distribucí napříč kategoriemi nezávislé proměnné. Buďte opatrní a neberte názvy kategorií zas tak doslova. KMVP část 4a [Kreidl 2000]

51 Jednoduché popisné statistiky

52 Střední hodnoty: nominální znaky → modus
ordinální znaky → medián (aritmetický průměr) intervalové znaky → aritmetický průměr KMVP část 4a

53 Modus = kategorie s největší četností
Medián = hodnota, která je ve prostředku všech pozorování seřazených podle hodnoty Aritmetický průměr = součet hodnot dělený počtem pozorování KMVP část 4a

54 Modus KMVP část 4a [Babbie 1995]

55 Medián KMVP část 4a [Babbie 1995]

56 Průměr KMVP část 4a [Babbie 1995]

57 Charakteristiky variability
Udávají koncentraci nebo rozptýlení kolem střední hodnoty. Rozptyl = součet kvadratických odchylek od průměru dělený rozsahem výběr zmenšeným o 1. Směrodatná odchylka = odmocnina z rozptylu. Ukazují na „kvalitu“ průměru. KMVP část 4a

58 Výpočet směrodatné odchylky
Příklad. Máme pozorování: Součet řady = 40; n = 10; průměr = 40/10 = 4 Odchylky: součet odchylek je 9 – 9 = 0 čtverce odchylek: 9; 4; 1; 1; 0; 1; 9; 1; 6; 4; 4; 4 součet čtverců odchylek = 52 průměrná čtvercová odchylka tj. rozptyl = 5,2 směrodatná odchylka (odmocnina z rozptylu) = 2,28 KMVP část 4a

59 Další popisné statistiky
Minimum / maximum Rozpětí Kvantily: dolní a horní kvartil Koeficienty šikmosti KMVP část 4a

60 Vlastnosti rozdělení kardinálních (spojitých) znaků

61 Symetrie, variabilita KMVP část 4a [Hanousek, Charamza 1992: 21]

62 Šikmost a špičatost KMVP část 4a [Hanousek, Charamza 1992: 21]

63 Několik rad jak číst statistiky
[Hanousek, Charamza 1993: 34-35]

64 Při čtení statistik pozor na:
„přesná“ čísla ve statistických zprávách procenta versus absolutní čísla srovnatelné údaje nezaměňovat ukazatele je porovnání vhodné? na výběry (nebyly-li provedeny profesionály) podobu otázek (znění) vlastní příprava zjišťování (experimentu) „v nemocnici umírají lidé častěji než doma“ [Hanousek, Charamza 1993: 34-35] celé viz soubor Pozor_statistika.pdf KMVP část 4a

65 Základní typy grafů Pro třídění 1. a 2. stupně

66 rozložení hodnot jednoho znaku (popisné statistiky a hypotéza 1.řádu)
Třídění 1. stupně rozložení hodnot jednoho znaku (popisné statistiky a hypotéza 1.řádu)

67 Histogram – pro kardinální (spojité) proměnné
KMVP část 4a

68 Barchart → četnosti kategorií kategorizovaného znaku (zde nominální znak Kraj)
KMVP část 4a

69 Alternativně: Koláčový graf (Pie chart), v %
KMVP část 4a

70 Třídění 2. stupně a tedy i test hypotéz druhého řádu
(hodnoty 1. proměnné podle hodnot 2. proměnné)

71 Barchart: pro třídění 2.stupně Kategoriální (nominální, ordinální) znaky Zájem o politiku podle pohlaví Odpovídá kontingenční tabulce KMVP část 4a

72 Barchart pro třídění 2.stupně Příklad: Zájem o politiku podle pohlaví
Nezávislá proměnná Součet v kategoriích = 100 % Závislá proměnná KMVP část 4a Zdroj: ISSP 2007

73 Bodový X-Y graf (scatter plot) Kardinální (spojité-číselné) znaky
Odpovídá korelačnímu koeficientu (a regresní analýze) KMVP část 4a

74 Spojitá (závislá) × kategoriální (nezávislá)
V principu porovnáváme průměry závislé – spojité v kategoriích nezávislé proměnné proměnné (+ lze i kontrola rozptylu/směrodatné odchylky nebo interval spolehlivosti ve skupinách) Odpovídá analýze rozptylu (koeficientu EtaSq) KMVP část 4a

75 Literatura Babbie, E. (1995). The Practice of social Research. 7th Edition. Belmont: Wadsworth Disman, M. (1993): Jak se vyrábí sociologická znalost. Praha: Karolinum Hanousek J., Charamza P. (1992). Moderní metody zpracování dat – Matematická statistika pro každého. Praha: Grada. Kreidl, M. (2000). Podklady ke kurzu Analýza kvantitativních dat. FSV UK, LS Jeřábek, H. (1993): Úvod do sociologického výzkumu. Praha: Karolinum Poděkování za cenné konzultace RNDr. L. Gatnarovi. KMVP část 4a


Stáhnout ppt "Kvantitativní metody výzkumu v praxi"

Podobné prezentace


Reklamy Google