Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Analýza kvantitativních dat II. Míry variability: variační koeficient a další indexy Jiří Šafr jiri.safr(zavináč)seznam.cz Tato prezentace je zatím ve.

Podobné prezentace


Prezentace na téma: "Analýza kvantitativních dat II. Míry variability: variační koeficient a další indexy Jiří Šafr jiri.safr(zavináč)seznam.cz Tato prezentace je zatím ve."— Transkript prezentace:

1 Analýza kvantitativních dat II. Míry variability: variační koeficient a další indexy Jiří Šafr jiri.safr(zavináč)seznam.cz Tato prezentace je zatím ve stadiu vývoje. poslední aktualizace ( ) UK FHS Historická sociologie (LS 2013)

2 1. Kardinální – číselné proměnné

3 3 Variační Rozpětí (Range) Základní míra: rozdíl mezi nejvyšší a nejnižší hodnotou znaku v datech. Nevypovídá o celkové variabilitě v datech, je citlivá na extrémní hodnoty (a ty mohou být náhodné). Proto je lepší používat charakteristiky popisující kolísání hodnot znaku kolem průměru nebo další míry polohy.

4 4 Variační koeficient CV (coefficient of variation) je mírou relativního rozptýlení dat. = podíl směrodatné odchylky k průměru. (nebo jiné střední hodnotě – mediánu) Relative standard deviation (RSD) dtto v procentech. Ukazuje podíl variability ve vztahu k průměru v %. Výhodou je, že můžeme porovnávat znaky s odlišným průměrem i různými metrikami (rozsahy škál). → např. při mezinárodní komparaci Pouze pro poměrové proměnné (ratio scales) a pozitivní hodnoty.

5 5 Data – dvě situace (např. v SPSS) pro výpočet míry variability 1. CV across a set of variables for each case – mezi (podobnými) proměnnými vždy pro jeden případ (např. respondent) = mezi sloupci 2. CV for one variable across cases – v rámci jedné proměnné mezi případy = řádky Zde je situace v SPSS složitější (pro uložení do proměnné nutno agregovat), pokud chceme jen zobrazit výsledek, pak lze použít příkazy REPORT nebo RANK (viz příklady 1 a 2). COMPUTE CV_Spok = CFVAR (spokojenost1, spokojenost2, spokojenost3). Lze provést porovnání CV např. pro podskupiny dle pohlaví. CV = 0,41

6 6 Příklad 1. CV v rámci jedné proměnné mezi případy spokojenost1 spokojenost2 spokojenost3 ____________ ____________ ____________ Grand Total Průměr StdDev Variační koeficient,41,41,00 REPORT /FORMAT= CHWRAP(ON) PREVIEW(OFF) CHALIGN(BOTTOM) UNDERSCORE(ON) ONEBREAKCOLUMN(OFF) CHDSPACE(1) SUMSPACE(0) AUTOMATIC NOLIST BRKSPACE(0) PAGE(1) MISSING'.' LENGTH(1, 59) ALIGN(LEFT) TSPACE(1) FTSPACE(1) /TITLE= RIGHT 'Page )PAGE‚ /VARIABLES spokojenost1 (VALUES) (RIGHT) (OFFSET(0)) (12) spokojenost2 (VALUES) (RIGHT) (OFFSET(0)) (12) spokojenost3 (VALUES) (RIGHT) (OFFSET(0)) (12) /BREAK (TOTAL) 'Grand Total' (SKIP(1)) /SUMMARY MEAN(spokojenost1) SKIP(1) MEAN( spokojenost2 ) MEAN( spokojenost3 ) 'Průměr' /SUMMARY STDDEV( spokojenost1) STDDEV( spokojenost2 ) STDDEV( spokojenost3 ) 'StdDev‚ /SUMMARY = DIVIDE ( STDDEV( spokojenost1) MEAN( spokojenost1) ) (spokojenost1 (2) ) SKIP(1) DIVIDE ( STDDEV( spokojenost2) MEAN( spokojenost2) ) (spokojenost2 (2) ) SKIP(1) DIVIDE ( STDDEV( spokojenost3) MEAN( spokojenost3) ) (spokojenost3 (2) ) SKIP(1) 'Variační koeficient'. Nelze v menu, musíme v syntaxu, využijeme příkaz REPORT Summaries in Rows, kde doplníme do Summary příkaz DIVIDE (se zadáním podílu směr.odch. / průměr)

7 Příklad 2. CV v rámci jedné proměnné mezi případy: agregovaná data + v oddělených blocích na základě časových období Spotřeba potravin podle sociálních tříd v letech (hypotetická data)

8 8 Příklad 2. Spotřeba potravin podle sociálních tříd v letech Jde o již dříve publikované údaje. (získali jsme je např. z tabulek v publikaci ČSÚ) Uspořádána jsou jako agregované „události- roky“, tj. vždy pro daný rok „případy“ – soc. třídy a jejich spotřeba potravin v kg. Chceme zjistit variabilitu – rozptýlenost hodnot ve spotřebě potravin) mezi třídami v daném roce. Měříme vlastně nerovnost ve spotřebě komodit mezi třídami v časovém srovnání.

9 9 Příklad 2. CV pomocí RATIO v SPSS Zkoumáme jak se v čase proměnila variance ve spotřebě komodit mezi třídami. V SPSS příkaz RATIO, který slouží k porovnání poměru dvou (kardinálních) proměnných. Pokud chceme CV pouze pro jednu proměnnou použijeme jednoduchý trik: vytvoříme proměnnou s konstantní hodnotou 1 a k ní budeme danou komoditu vztahovat. Protože zde porovnáváme spotřebu v čase, provedeme navíc oddělení výsledků pro jednotlivé roky pomocí SPLIT.

10 10 Příprava a zadání výpočtu v syntaxu *Vytvoření konstanty 1. COMPUTE konst1 =1. SORT CASES BY rok. SPLIT FILE LAYERED BY rok. RATIO STATISTICS citrony WITH konst1 BY trida (ASCENDING) /MISSING=EXCLUDE /PRINT=MEAN MNCOV RANGE STDDEV. Zadání samotného CV, zde ve vztahu k průměru (lze i k mediánu) je MNCOV, navíc máme zadáno Rozpětí a Směrodatnou odchylku.

11 11 Výsledek: Variační koeficient v % (RSD) CV (RSD) mezi lety 1960 až 1980 klesá, z 75,5 % na 0 %. V daném období tedy rozdíly ve spotřebě citrónů mezi sociálními třídami poklesly na minimum (žádný rozdíl v roce 1980).

12 12 Další míry variability Koeficient rozptýlení dat - coefficient of dispersion / variance-to-mean ratio (VMR) → podíl mocniny směrodatné odch.k průměru RATIO STATISTICS lastval WITH saleval BY town (ASCENDING) /PRINT = BCOC(0.8,1.2) COD MEDIAN WCOC( 20 ). Zdroj: [SPSS 17 Tutorial]

13 2. Kategoriální (nominální/ordinální) znaky Míry variability pro nominální proměnné

14 14 Variabilita hodnot u nominálního znaku Na rozdíl od kardinálních-numerických znaků tvar rozložení nedává smysl (v histogramu), protože kategorie nemají žádný číselný - hierarchický význam. (u ordinálních znaků tvar rozložení ovšem určitou informaci podává). Variabilita znaku je dána rozptýleností / koncentrací podílů (%) v jednotlivých kategoriích (nulová je tehdy jsou-li kategorie % stejně zastoupené).

15 15 Míry variability pro kategoriální proměnné poněkud složitější situace (než u kardinálních znaků) Nominální proměnné: Variační poměr – v Nominální rozptyl – D (nomvar) (Giniho koeficient) → relativní počet všech dvojic, které nejsou ve stejné kategorii Normalizovaný nominální rozptyl (norm. nomvar nebo IQV) Entropie – H normalizovaná entropie – H* Ordinální proměnné: Ordinální rozptyl - dorvar Viz

16 16 Vlastnosti měr variability kategoriálních znaků Čím vyšší hodnota tím vyšší heterogenita souboru Jsou rovny nule, když je celý soubor soustředěn do jedné kategorie (nulové rozptýlení) → úplná homogenita Maximální hodnota = rovnoměrné rozložení dat (kategorií) → úplná heterogenita Ukazují do jaké míry, jsou data koncentrována kolem své charakteristické hodnoty (→ modální kategorie), tj. jak moc je tato hodnota typická pro celý soubor. Zdroj: [Řehák, Řeháková 1986: 66-69]

17 17 Variační poměr – v Nejjednodušší míra variability. Pokud je více modálních kategorií uvažujeme nejvyšší četnost pouze jednou. Výhodou v je jednoduchost výpočtu. Nevýhodou v je, že je založeno pouze na modální četnosti (nomvar – D je pracnější,ale odráží celou strukturu tabulky). Zdroj: [Řehák, Řeháková 1986: 66]

18 18 Příklad: Variační poměr – v (DATA) [Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]

19 19 Příklad: Variační poměr – v Způsob získávání denního tisku u pravidelných čtenářů, pro Periodikum J (N = 1289) PředplácíKupujeK disp. v práciPůjčuje siZískává jinakCelkemN% z celku 48,3%24,1%6,9%16,4%43,0% ,9 v = 1 – (56,028 / 116) = 0,517 Zdroj: [Řehák, Řeháková 1986: 68-69] lze spočítat v Excelu: V může sloužit k porovnání variability rozložení několika znaků (např. zde různých periodik) nebo podskupin v třídění 2.stupně (podobně jako Směrod.odchylka u kardinálních znaků). Zde způsoby získávání u různých periodik: např. periodikum J (v=0,517) má dvojnásobný variační poměr než periodikum H (v=0,224), tj. způsoby jeho získávání jsou mnohem variabilnější (všimněte si, že u tiskoviny H představuje modus „Kupuje“ celých 77,6 %).

20 20 Nominální variance (nomvar) Index diversity (D) nomvar nebo D Kde: p – podíl pozorování v dané i-té kategorii → podíl všech dvojic jednotek, které nemají stejnou hodnotu znaku nebo také → pravděpodobnost, že dva náhodně vybraní jedinci z populace budou patřit do rozdílných kategorií. Index je tím vyšší, čím více je kategorií a čím více jsou pozorování rozptýlena rovnoměrně v těchto kategoriích. [Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]

21 21 Normalizovaná nominální variance Index of Qualitative Variation (IQV) norm.normvar = IQV == D/(1 – 1/K) kde K = počet kategorií a D = Index diversity (nom.var) IQV = pozorované rozdíly /maximum možných rozdílů Standardizovaná pravděpodobnost, že náhodný pár ve výběru nebude patřit do stejné kategorie. Rozpětí 0 až 1: Když všechny hodnoty patří do jedné kategorie IQV = 0 (úplná homogenita). Když jsou všechny rovnoměrně zastoupeny pak IQV = 1 (maximum heterogenity) Jako max. počet kategorií (K) použijeme teoretickou hodnotu – všech možných kategorií, i kdyby v dané subpopulaci nebyly všechny zastoupeny. Více viz

22 22 Postup výpočtu IQV 1.Vypočítejte podíl kategorií → tabulka třídění 1. stupně (nebo 2. stupně – pro podskupiny) 2.Podíl v každé kategorie umocněte 3.Sečtěte umocněné podíly 4.Pro D: odečtěte od 1 5.Pro IQV: D vydělte ( 1-1/K) (k je max. počet kategorií)

23 23 Příklad: D a IQV [Agresti, Agresti 1978] Occupational Status by Race and Year in W'alton County, Florida Index diverzity D (nomvar) pro bělochy (white population) v roce 1870: D = = V populaci bělochů v roce 1870 je pravděpodobnost, že dva náhodně vybraní jedinci budou z odlišné profesně-třídní skupiny 0,653.

24 24 Standardizace D na IQV IQV = ((k- 1)*D)/k nebo D/(1 – 1/K) 1–1/K = 1 – 1/6 = 0,833 → Jde o maximální možnou hodnotu D zde 6 profesně třídních kategorií) IQV = 0,653 / 0,833 = 0,784

25 25 Spočítejte D a IQV pro další kategorie: Běloši 1870 Běloši 1885 Černoši 1870 Černoši 1885 Pokračování příklad D a IQV [Agresti, Agresti 1978]

26 26 V každém roce je černošská populace v porovnání s bělošskou méně profesně-třídně heterogenní. V černošské populaci došlo za 15 let k poklesu diverzity profesně-třídních kategorií, zatímco u bělochů variance zůstala přibližně stejná. Pokračování příklad D a IQV [Agresti, Agresti 1978] Běloši Černoši ,7840,811 0,4420,230

27 27 Míry variability nominální/ordinální proměnné v SPSS SPSS neobsahuje, ale existuje skript, který lze aplikovat na tabulku třídění 1.stupně (FREQUENCIES) Míry variability pro kategorizované proměnné K dispozici jsou tyto míry: variační poměr, nominální variance, normovaná nominální variance, ordinální variance a normovaná ordinální variance. Definice těchto měr lze najít v knize Řehák J., Řeháková B Analýza kategorizovaných dat v sociologii. Praha: Academia.

28 28 Míry variability pro kategorizované znaky v SPSS - skript Vstupní tabulka výsledek

29 29 Pro porovnání podskupin → SPLIT FILE Muži Ženy Ženy mají heterogennější zastoupení vystudovaných oborů než muži (nomvar ženy=0,8 vs. muži=0,6).

30 30 V SPSS: Syntax + Skript SORT CASES BY pohlavi. SPLIT FILE SEPARATE BY pohlavi. FREQ vzd_obor7. A pak aplikovat skript mira-variability → výsledek se spočte pro muže a ženy zvlášť

31 31 A nebo spočítat ručně (v Excelu)

32 Porovnání IQV v podskupinách/ populacích (bude doplněno)

33 33 Reference Agresti, Alan; Barbara F. Agresti “Statistical Analysis of Qualitative Variation.” Sociological Methodology 9: Řehák, J., B. Řeháková Analýza kategorizovaných dat v sociologii. Praha: Academia.


Stáhnout ppt "Analýza kvantitativních dat II. Míry variability: variační koeficient a další indexy Jiří Šafr jiri.safr(zavináč)seznam.cz Tato prezentace je zatím ve."

Podobné prezentace


Reklamy Google