Jiří Šafr jiri.safr(zavináč)seznam.cz UK FHS Historická sociologie (LS 2013) Analýza kvantitativních dat II. Míry variability: variační koeficient a další indexy Jiří Šafr jiri.safr(zavináč)seznam.cz Tato prezentace je zatím ve stadiu vývoje. poslední aktualizace 27. 10. 2014. (6.4. 2014)
1. Kardinální – číselné proměnné
Variační Rozpětí (Range) Základní míra: rozdíl mezi nejvyšší a nejnižší hodnotou znaku v datech. Nevypovídá o celkové variabilitě v datech, je citlivá na extrémní hodnoty (a ty mohou být náhodné). Proto je lepší používat charakteristiky popisující kolísání hodnot znaku kolem průměru nebo další míry polohy.
Variační koeficient CV (coefficient of variation) je mírou relativního rozptýlení dat. = podíl směrodatné odchylky k průměru. (nebo jiné střední hodnotě – mediánu) Relative standard deviation (RSD) dtto v procentech. Ukazuje podíl variability ve vztahu k průměru v %. Výhodou je, že můžeme porovnávat znaky s odlišným průměrem i různými metrikami (rozsahy škál). → např. při mezinárodní komparaci Pouze pro poměrové proměnné (ratio scales) a pozitivní hodnoty.
Data – dvě situace (např. v SPSS) pro výpočet míry variability 1. CV across a set of variables for each case – mezi (podobnými) proměnnými vždy pro jeden případ (např. respondent) = mezi sloupci 2. CV for one variable across cases – v rámci jedné proměnné mezi případy = řádky Zde je situace v SPSS složitější (pro uložení do proměnné nutno agregovat), pokud chceme jen zobrazit výsledek, pak lze použít příkazy REPORT nebo RANK (viz příklady 1 a 2). COMPUTE CV_Spok = CFVAR (spokojenost1, spokojenost2, spokojenost3). CV = 0,41 Lze provést porovnání CV např. pro podskupiny dle pohlaví.
Příklad 1. CV v rámci jedné proměnné mezi případy Nelze v menu, musíme v syntaxu, využijeme příkaz REPORT Summaries in Rows, kde doplníme do Summary příkaz DIVIDE (se zadáním podílu směr.odch. / průměr) REPORT /FORMAT= CHWRAP(ON) PREVIEW(OFF) CHALIGN(BOTTOM) UNDERSCORE(ON) ONEBREAKCOLUMN(OFF) CHDSPACE(1) SUMSPACE(0) AUTOMATIC NOLIST BRKSPACE(0) PAGE(1) MISSING'.' LENGTH(1, 59) ALIGN(LEFT) TSPACE(1) FTSPACE(1) /TITLE= RIGHT 'Page )PAGE‚ /VARIABLES spokojenost1 (VALUES) (RIGHT) (OFFSET(0)) (12) spokojenost2 (VALUES) (RIGHT) (OFFSET(0)) (12) spokojenost3 (VALUES) (RIGHT) (OFFSET(0)) (12) /BREAK (TOTAL) 'Grand Total' (SKIP(1)) /SUMMARY MEAN(spokojenost1) SKIP(1) MEAN( spokojenost2 ) MEAN( spokojenost3 ) 'Průměr' /SUMMARY STDDEV( spokojenost1) STDDEV( spokojenost2 ) STDDEV( spokojenost3 ) 'StdDev‚ /SUMMARY = DIVIDE ( STDDEV( spokojenost1) MEAN( spokojenost1) ) (spokojenost1 (2) ) SKIP(1) DIVIDE ( STDDEV( spokojenost2) MEAN( spokojenost2) ) (spokojenost2 (2) ) SKIP(1) DIVIDE ( STDDEV( spokojenost3) MEAN( spokojenost3) ) (spokojenost3 (2) ) SKIP(1) 'Variační koeficient' . spokojenost1 spokojenost2 spokojenost3 ____________ ____________ ____________ Grand Total Průměr 3 2 4 StdDev 1 1 0 Variační koeficient ,41 ,41 ,00
Spotřeba potravin podle sociálních tříd v letech 1960-1980 Příklad 2. CV v rámci jedné proměnné mezi případy: agregovaná data + v oddělených blocích na základě časových období Spotřeba potravin podle sociálních tříd v letech 1960-1980 (hypotetická data)
Příklad 2. Spotřeba potravin podle sociálních tříd v letech 1960-1980 Jde o již dříve publikované údaje. (získali jsme je např. z tabulek v publikaci ČSÚ) Uspořádána jsou jako agregované „události-roky“, tj. vždy pro daný rok „případy“ – soc. třídy a jejich spotřeba potravin v kg. Chceme zjistit variabilitu – rozptýlenost hodnot ve spotřebě potravin) mezi třídami v daném roce. Měříme vlastně nerovnost ve spotřebě komodit mezi třídami v časovém srovnání.
Příklad 2. CV pomocí RATIO v SPSS Zkoumáme jak se v čase proměnila variance ve spotřebě komodit mezi třídami. V SPSS příkaz RATIO, který slouží k porovnání poměru dvou (kardinálních) proměnných. Pokud chceme CV pouze pro jednu proměnnou použijeme jednoduchý trik: vytvoříme proměnnou s konstantní hodnotou 1 a k ní budeme danou komoditu vztahovat . Protože zde porovnáváme spotřebu v čase, provedeme navíc oddělení výsledků pro jednotlivé roky pomocí SPLIT.
Příprava a zadání výpočtu v syntaxu *Vytvoření konstanty 1. COMPUTE konst1 =1. SORT CASES BY rok. SPLIT FILE LAYERED BY rok. RATIO STATISTICS citrony WITH konst1 BY trida (ASCENDING) /MISSING=EXCLUDE /PRINT=MEAN MNCOV RANGE STDDEV. Zadání samotného CV, zde ve vztahu k průměru (lze i k mediánu) je MNCOV, navíc máme zadáno Rozpětí a Směrodatnou odchylku.
Výsledek: Variační koeficient v % (RSD) CV (RSD) mezi lety 1960 až 1980 klesá, z 75,5 % na 0 %. V daném období tedy rozdíly ve spotřebě citrónů mezi sociálními třídami poklesly na minimum (žádný rozdíl v roce 1980).
Další míry variability Koeficient rozptýlení dat - coefficient of dispersion / variance-to-mean ratio (VMR) → podíl mocniny směrodatné odch.k průměru RATIO STATISTICS lastval WITH saleval BY town (ASCENDING) /PRINT = BCOC(0.8,1.2) COD MEDIAN WCOC( 20 ) . Zdroj: [SPSS 17 Tutorial]
2. Kategoriální (nominální/ordinální) znaky Míry variability pro nominální proměnné
Variabilita hodnot u nominálního znaku Na rozdíl od kardinálních-numerických znaků tvar rozložení nedává smysl (v histogramu), protože kategorie nemají žádný číselný - hierarchický význam. (u ordinálních znaků tvar rozložení ovšem určitou informaci podává). Variabilita znaku je dána rozptýleností / koncentrací podílů (%) v jednotlivých kategoriích (nulová je tehdy jsou-li kategorie % stejně zastoupené).
Míry variability pro kategoriální proměnné poněkud složitější situace (než u kardinálních znaků) Nominální proměnné: Variační poměr – v Nominální rozptyl – D (nomvar) (Giniho koeficient) → relativní počet všech dvojic, které nejsou ve stejné kategorii Normalizovaný nominální rozptyl (norm. nomvar nebo IQV) Entropie – H normalizovaná entropie – H* Ordinální proměnné: Ordinální rozptyl - dorvar Viz http://iastat.vse.cz/Nominalni.html
Vlastnosti měr variability kategoriálních znaků Čím vyšší hodnota tím vyšší heterogenita souboru Jsou rovny nule, když je celý soubor soustředěn do jedné kategorie (nulové rozptýlení) → úplná homogenita Maximální hodnota = rovnoměrné rozložení dat (kategorií) → úplná heterogenita Ukazují do jaké míry, jsou data koncentrována kolem své charakteristické hodnoty (→ modální kategorie), tj. jak moc je tato hodnota typická pro celý soubor. Zdroj: [Řehák, Řeháková 1986: 66-69]
Variační poměr – v Nejjednodušší míra variability. Pokud je více modálních kategorií uvažujeme nejvyšší četnost pouze jednou. Výhodou v je jednoduchost výpočtu. Nevýhodou v je, že je založeno pouze na modální četnosti (nomvar – D je pracnější,ale odráží celou strukturu tabulky). Zdroj: [Řehák, Řeháková 1986: 66]
Příklad: Variační poměr – v (DATA) [Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]
Příklad: Variační poměr – v Způsob získávání denního tisku u pravidelných čtenářů, pro Periodikum J (N = 1289) Předplácí Kupuje K disp. v práci Půjčuje si Získává jinak Celkem N % z celku 48,3% 24,1% 6,9% 16,4% 43,0% 100 116 8,9 lze spočítat v Excelu: v = 1 – (56,028 / 116) = 0,517 V může sloužit k porovnání variability rozložení několika znaků (např. zde různých periodik) nebo podskupin v třídění 2.stupně (podobně jako Směrod.odchylka u kardinálních znaků). Zde způsoby získávání u různých periodik: např. periodikum J (v=0,517) má dvojnásobný variační poměr než periodikum H (v=0,224), tj. způsoby jeho získávání jsou mnohem variabilnější (všimněte si, že u tiskoviny H představuje modus „Kupuje“ celých 77,6 %). Zdroj: [Řehák, Řeháková 1986: 68-69]
Nominální variance (nomvar) Index diversity (D) nomvar nebo D Kde: p – podíl pozorování v dané i-té kategorii → podíl všech dvojic jednotek, které nemají stejnou hodnotu znaku nebo také → pravděpodobnost, že dva náhodně vybraní jedinci z populace budou patřit do rozdílných kategorií. Index je tím vyšší, čím více je kategorií a čím více jsou pozorování rozptýlena rovnoměrně v těchto kategoriích. [Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]
Normalizovaná nominální variance Index of Qualitative Variation (IQV) norm.normvar = IQV = = D/(1–1/K) kde K = počet kategorií a D = Index diversity (nom.var) IQV = pozorované rozdíly /maximum možných rozdílů Standardizovaná pravděpodobnost, že náhodný pár ve výběru nebude patřit do stejné kategorie. Rozpětí 0 až 1: Když všechny hodnoty patří do jedné kategorie IQV = 0 (úplná homogenita). Když jsou všechny rovnoměrně zastoupeny pak IQV = 1 (maximum heterogenity) Jako max. počet kategorií (K) použijeme teoretickou hodnotu – všech možných kategorií, i kdyby v dané subpopulaci nebyly všechny zastoupeny. Více viz http://sociology.about.com/od/Statistics/a/Index-Of-Qualitative-Variation-Iqv.htm
Postup výpočtu IQV Vypočítejte podíl kategorií → tabulka třídění 1. stupně (nebo 2. stupně – pro podskupiny) Podíl v každé kategorie umocněte Sečtěte umocněné podíly Pro D: odečtěte od 1 Pro IQV: D vydělte (1-1/K) (k je max. počet kategorií)
Příklad: D a IQV [Agresti, Agresti 1978] Occupational Status by Race and Year in W'alton County, Florida Index diverzity D (nomvar) pro bělochy (white population) v roce 1870: D = 1 - 0.347 = 0.653 V populaci bělochů v roce 1870 je pravděpodobnost, že dva náhodně vybraní jedinci budou z odlišné profesně-třídní skupiny 0,653.
Standardizace D na IQV IQV = ((k- 1)*D)/k nebo D/(1–1/K) 1–1/K = 1 – 1/6 = 0,833 → Jde o maximální možnou hodnotu D zde 6 profesně třídních kategorií) IQV = 0,653 / 0,833 = 0,784
Pokračování příklad D a IQV [Agresti, Agresti 1978] Spočítejte D a IQV pro další kategorie: Běloši 1870 Běloši 1885 Černoši 1870 Černoši 1885
Pokračování příklad D a IQV [Agresti, Agresti 1978] V každém roce je černošská populace v porovnání s bělošskou méně profesně-třídně heterogenní. V černošské populaci došlo za 15 let k poklesu diverzity profesně-třídních kategorií, zatímco u bělochů variance zůstala přibližně stejná. Běloši Černoši 1870 1885 0,784 0,811 0,442 0,230
Míry variability nominální/ordinální proměnné v SPSS SPSS neobsahuje, ale existuje skript, který lze aplikovat na tabulku třídění 1.stupně (FREQUENCIES) Míry variability pro kategorizované proměnné http://acrea.cz/cz/skripty/mira-variability K dispozici jsou tyto míry: variační poměr, nominální variance, normovaná nominální variance, ordinální variance a normovaná ordinální variance. Definice těchto měr lze najít v knize Řehák J., Řeháková B. 1986. Analýza kategorizovaných dat v sociologii. Praha: Academia.
Míry variability pro kategorizované znaky v SPSS - skript Vstupní tabulka výsledek
Pro porovnání podskupin → SPLIT FILE Muži Ženy Ženy mají heterogennější zastoupení vystudovaných oborů než muži (nomvar ženy=0,8 vs. muži=0,6).
V SPSS: Syntax + Skript SORT CASES BY pohlavi. SPLIT FILE SEPARATE BY pohlavi. FREQ vzd_obor7. A pak aplikovat skript mira-variability → výsledek se spočte pro muže a ženy zvlášť
A nebo spočítat ručně (v Excelu)
Porovnání IQV v podskupinách/ populacích (bude doplněno)
Reference Agresti, Alan; Barbara F. Agresti. 1978. “Statistical Analysis of Qualitative Variation.” Sociological Methodology 9: 204-237. Řehák, J., B. Řeháková. 1986. Analýza kategorizovaných dat v sociologii. Praha: Academia.