Jiří Šafr jiri.safr(zavináč)seznam.cz

Slides:



Advertisements
Podobné prezentace
Statistika.
Advertisements

Vlastní skript může být umístěn: v hlavičce stránky v těle stránky
*Zdroj: Průzkum spotřebitelů Komise EU, ukazatel GfK. Ekonomická očekávání v Evropě Březen.
Analýza kvantitativních dat I./II. Typy dat Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 26/2/2012 UK FHS Historická sociologie, Řízení a supervize.
Kvantitativní metody výzkumu v praxi
Statistické charakteristiky variability
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
Jiří Šafr jiri.safr(zavináč)seznam.cz
Jiří Šafr jiri.safr(zavináč)seznam.cz
Analýza kvantitativních dat: 1. úvod do SPSS Jiří Šafr jiri.safr(zavináč)seznam.cz vytvořeno , poslední aktualizace UK FHS Historická.
Regulační diagram je to základní grafický nástroj statistické regulace procesu, který umožňuje posoudit statistickou zvládnutost procesu statisticky zvládnutý.
POPISNÁ STATISTIKA ZPRACOVÁNÍ DAT Výpočet výběrových charakteristik
Analýza variance (Analysis of variance)
EXPLORATORNÍ STATISTIKA
Charakteristiky variability
Získávání informací Získání informací o reálném systému
Popisná statistika - pokračování
Statistika Vypracoval: Mgr. Lukáš Bičík
Tloušťková struktura porostu
Zásady pozorování a vyjednávání Soustředění – zaznamenat (podívat se) – udržet (zobrazit) v povědomí – představit si – (opakovat, pokud se nezdaří /doma/)
Jiří Šafr jiri.safr(zavináč)seznam.cz
Analýza kvantitativních dat I.
Analýza kvantitativních dat I. Popisné statistiky a explorační analýza
Analýza kvantitativních dat II. Standardizace intenzitních ukazatelů Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace UK FHS Historická.
Řízení a supervize v sociálních a zdravotnických organizacích
Pojmy a interpretace.
1 Celostátní konference ředitelů gymnázií ČR AŘG ČR P ř e r o v Mezikrajová komparace ekonomiky gymnázií.
Principy konstrukce norem a základní statistické pojmy
Analýza kvantitativních dat II. / Praktikum Vícenásobné výběrové otázky (Multiple response) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Odhady odhady bodové a intervalové odhady
Charakteristické rysy a typy jednorozměrného rozdělení četností.
Přednost početních operací
Statistika Ukazatelé variability
Charakteristiky variability
Jiří Šafr jiri.safr(zavináč)seznam.cz
Jiří Šafr jiri.safr(AT)seznam.cz
Charakteristiky variability
Popisné statistiky. Výskyt strupovitosti se zdá být ve vztahu s obsahem některých chemických prvků “ve slupkách“ hlíz. Některé odrůdy trpí strupovitostí.
Pohled z ptačí perspektivy
Jiří Šafr jiri.safr(zavináč)seznam.cz
Analýza kvantitativních dat I. Vztahy mezi 3 znaky v kontingenční tabulce - úvod Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace
Na co ve výuce statistiky není čas
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz
Popisná analýza v programu Statistica
AKD 1 (7/5) Transformace – vytváření nových proměnných: COMPUTE → SUMA celkový počet knih Konstanta → Student FHS COUNT → knihomol (2 x III. Tercil)
Inferenční statistika - úvod
Základy popisné statistiky
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
Popisné statistiky a explorační jednorozměrná analýza
Popisná statistika I tabulky četností
Induktivní statistika
Popisná statistika: přehled
Popisná analýza v programu Statistica
Induktivní statistika
Spojitá a kategoriální data Základní popisné statistiky
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Typy proměnných Kvalitativní/kategorická binární - ano/ne
Kapitola 3: Centrální tendence a variabilita
Metodologie pro ISK 2 Úvod do práce s daty
Metodologie pro ISK 2 Kontrola dat Popis kategorizovaných dat
Statistika a výpočetní technika
Analýza kardinálních proměnných
Autor: Honnerová Helena
Induktivní statistika
Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz
Základy statistiky.
Základy popisné statistiky
Transkript prezentace:

Jiří Šafr jiri.safr(zavináč)seznam.cz UK FHS Historická sociologie (LS 2013) Analýza kvantitativních dat II. Míry variability: variační koeficient a další indexy Jiří Šafr jiri.safr(zavináč)seznam.cz Tato prezentace je zatím ve stadiu vývoje. poslední aktualizace 27. 10. 2014. (6.4. 2014)

1. Kardinální – číselné proměnné

Variační Rozpětí (Range) Základní míra: rozdíl mezi nejvyšší a nejnižší hodnotou znaku v datech. Nevypovídá o celkové variabilitě v datech, je citlivá na extrémní hodnoty (a ty mohou být náhodné). Proto je lepší používat charakteristiky popisující kolísání hodnot znaku kolem průměru nebo další míry polohy.

Variační koeficient CV (coefficient of variation) je mírou relativního rozptýlení dat. = podíl směrodatné odchylky k průměru. (nebo jiné střední hodnotě – mediánu) Relative standard deviation (RSD) dtto v procentech. Ukazuje podíl variability ve vztahu k průměru v %. Výhodou je, že můžeme porovnávat znaky s odlišným průměrem i různými metrikami (rozsahy škál). → např. při mezinárodní komparaci Pouze pro poměrové proměnné (ratio scales) a pozitivní hodnoty.

Data – dvě situace (např. v SPSS) pro výpočet míry variability 1. CV across a set of variables for each case – mezi (podobnými) proměnnými vždy pro jeden případ (např. respondent) = mezi sloupci 2. CV for one variable across cases – v rámci jedné proměnné mezi případy = řádky Zde je situace v SPSS složitější (pro uložení do proměnné nutno agregovat), pokud chceme jen zobrazit výsledek, pak lze použít příkazy REPORT nebo RANK (viz příklady 1 a 2). COMPUTE CV_Spok = CFVAR (spokojenost1, spokojenost2, spokojenost3). CV = 0,41 Lze provést porovnání CV např. pro podskupiny dle pohlaví.

Příklad 1. CV v rámci jedné proměnné mezi případy Nelze v menu, musíme v syntaxu, využijeme příkaz REPORT Summaries in Rows, kde doplníme do Summary příkaz DIVIDE (se zadáním podílu směr.odch. / průměr) REPORT /FORMAT= CHWRAP(ON) PREVIEW(OFF) CHALIGN(BOTTOM) UNDERSCORE(ON) ONEBREAKCOLUMN(OFF) CHDSPACE(1) SUMSPACE(0) AUTOMATIC NOLIST BRKSPACE(0) PAGE(1) MISSING'.' LENGTH(1, 59) ALIGN(LEFT) TSPACE(1) FTSPACE(1) /TITLE= RIGHT 'Page )PAGE‚ /VARIABLES spokojenost1 (VALUES) (RIGHT) (OFFSET(0)) (12) spokojenost2 (VALUES) (RIGHT) (OFFSET(0)) (12) spokojenost3 (VALUES) (RIGHT) (OFFSET(0)) (12) /BREAK (TOTAL) 'Grand Total' (SKIP(1)) /SUMMARY MEAN(spokojenost1) SKIP(1) MEAN( spokojenost2 ) MEAN( spokojenost3 ) 'Průměr' /SUMMARY STDDEV( spokojenost1) STDDEV( spokojenost2 ) STDDEV( spokojenost3 ) 'StdDev‚ /SUMMARY = DIVIDE ( STDDEV( spokojenost1) MEAN( spokojenost1) ) (spokojenost1 (2) ) SKIP(1) DIVIDE ( STDDEV( spokojenost2) MEAN( spokojenost2) ) (spokojenost2 (2) ) SKIP(1) DIVIDE ( STDDEV( spokojenost3) MEAN( spokojenost3) ) (spokojenost3 (2) ) SKIP(1) 'Variační koeficient' . spokojenost1 spokojenost2 spokojenost3 ____________ ____________ ____________ Grand Total Průměr 3 2 4 StdDev 1 1 0 Variační koeficient ,41 ,41 ,00

Spotřeba potravin podle sociálních tříd v letech 1960-1980 Příklad 2. CV v rámci jedné proměnné mezi případy: agregovaná data + v oddělených blocích na základě časových období Spotřeba potravin podle sociálních tříd v letech 1960-1980 (hypotetická data)

Příklad 2. Spotřeba potravin podle sociálních tříd v letech 1960-1980 Jde o již dříve publikované údaje. (získali jsme je např. z tabulek v publikaci ČSÚ) Uspořádána jsou jako agregované „události-roky“, tj. vždy pro daný rok „případy“ – soc. třídy a jejich spotřeba potravin v kg. Chceme zjistit variabilitu – rozptýlenost hodnot ve spotřebě potravin) mezi třídami v daném roce. Měříme vlastně nerovnost ve spotřebě komodit mezi třídami v časovém srovnání.

Příklad 2. CV pomocí RATIO v SPSS Zkoumáme jak se v čase proměnila variance ve spotřebě komodit mezi třídami. V SPSS příkaz RATIO, který slouží k porovnání poměru dvou (kardinálních) proměnných. Pokud chceme CV pouze pro jednu proměnnou použijeme jednoduchý trik: vytvoříme proměnnou s konstantní hodnotou 1 a k ní budeme danou komoditu vztahovat . Protože zde porovnáváme spotřebu v čase, provedeme navíc oddělení výsledků pro jednotlivé roky pomocí SPLIT.

Příprava a zadání výpočtu v syntaxu *Vytvoření konstanty 1. COMPUTE konst1 =1. SORT CASES BY rok. SPLIT FILE LAYERED BY rok. RATIO STATISTICS citrony WITH konst1 BY trida (ASCENDING) /MISSING=EXCLUDE /PRINT=MEAN MNCOV RANGE STDDEV. Zadání samotného CV, zde ve vztahu k průměru (lze i k mediánu) je MNCOV, navíc máme zadáno Rozpětí a Směrodatnou odchylku.

Výsledek: Variační koeficient v % (RSD) CV (RSD) mezi lety 1960 až 1980 klesá, z 75,5 % na 0 %. V daném období tedy rozdíly ve spotřebě citrónů mezi sociálními třídami poklesly na minimum (žádný rozdíl v roce 1980).

Další míry variability Koeficient rozptýlení dat - coefficient of dispersion / variance-to-mean ratio (VMR) → podíl mocniny směrodatné odch.k průměru RATIO STATISTICS lastval WITH saleval BY town (ASCENDING) /PRINT = BCOC(0.8,1.2) COD MEDIAN WCOC( 20 ) . Zdroj: [SPSS 17 Tutorial]

2. Kategoriální (nominální/ordinální) znaky Míry variability pro nominální proměnné

Variabilita hodnot u nominálního znaku Na rozdíl od kardinálních-numerických znaků tvar rozložení nedává smysl (v histogramu), protože kategorie nemají žádný číselný - hierarchický význam. (u ordinálních znaků tvar rozložení ovšem určitou informaci podává). Variabilita znaku je dána rozptýleností / koncentrací podílů (%) v jednotlivých kategoriích (nulová je tehdy jsou-li kategorie % stejně zastoupené).

Míry variability pro kategoriální proměnné poněkud složitější situace (než u kardinálních znaků) Nominální proměnné: Variační poměr – v Nominální rozptyl – D (nomvar) (Giniho koeficient) → relativní počet všech dvojic, které nejsou ve stejné kategorii Normalizovaný nominální rozptyl (norm. nomvar nebo IQV) Entropie – H normalizovaná entropie – H* Ordinální proměnné: Ordinální rozptyl - dorvar Viz http://iastat.vse.cz/Nominalni.html

Vlastnosti měr variability kategoriálních znaků Čím vyšší hodnota tím vyšší heterogenita souboru Jsou rovny nule, když je celý soubor soustředěn do jedné kategorie (nulové rozptýlení) → úplná homogenita Maximální hodnota = rovnoměrné rozložení dat (kategorií) → úplná heterogenita Ukazují do jaké míry, jsou data koncentrována kolem své charakteristické hodnoty (→ modální kategorie), tj. jak moc je tato hodnota typická pro celý soubor. Zdroj: [Řehák, Řeháková 1986: 66-69]

Variační poměr – v Nejjednodušší míra variability. Pokud je více modálních kategorií uvažujeme nejvyšší četnost pouze jednou. Výhodou v je jednoduchost výpočtu. Nevýhodou v je, že je založeno pouze na modální četnosti (nomvar – D je pracnější,ale odráží celou strukturu tabulky). Zdroj: [Řehák, Řeháková 1986: 66]

Příklad: Variační poměr – v (DATA) [Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]

Příklad: Variační poměr – v Způsob získávání denního tisku u pravidelných čtenářů, pro Periodikum J (N = 1289) Předplácí Kupuje K disp. v práci Půjčuje si Získává jinak Celkem N % z celku 48,3% 24,1% 6,9% 16,4% 43,0% 100 116 8,9 lze spočítat v Excelu: v = 1 – (56,028 / 116) = 0,517 V může sloužit k porovnání variability rozložení několika znaků (např. zde různých periodik) nebo podskupin v třídění 2.stupně (podobně jako Směrod.odchylka u kardinálních znaků). Zde způsoby získávání u různých periodik: např. periodikum J (v=0,517) má dvojnásobný variační poměr než periodikum H (v=0,224), tj. způsoby jeho získávání jsou mnohem variabilnější (všimněte si, že u tiskoviny H představuje modus „Kupuje“ celých 77,6 %). Zdroj: [Řehák, Řeháková 1986: 68-69]

Nominální variance (nomvar) Index diversity (D) nomvar nebo D Kde: p – podíl pozorování v dané i-té kategorii → podíl všech dvojic jednotek, které nemají stejnou hodnotu znaku nebo také → pravděpodobnost, že dva náhodně vybraní jedinci z populace budou patřit do rozdílných kategorií. Index je tím vyšší, čím více je kategorií a čím více jsou pozorování rozptýlena rovnoměrně v těchto kategoriích. [Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]

Normalizovaná nominální variance Index of Qualitative Variation (IQV) norm.normvar = IQV = = D/(1–1/K) kde K = počet kategorií a D = Index diversity (nom.var) IQV = pozorované rozdíly /maximum možných rozdílů Standardizovaná pravděpodobnost, že náhodný pár ve výběru nebude patřit do stejné kategorie. Rozpětí 0 až 1: Když všechny hodnoty patří do jedné kategorie IQV = 0 (úplná homogenita). Když jsou všechny rovnoměrně zastoupeny pak IQV = 1 (maximum heterogenity) Jako max. počet kategorií (K) použijeme teoretickou hodnotu – všech možných kategorií, i kdyby v dané subpopulaci nebyly všechny zastoupeny. Více viz http://sociology.about.com/od/Statistics/a/Index-Of-Qualitative-Variation-Iqv.htm

Postup výpočtu IQV Vypočítejte podíl kategorií → tabulka třídění 1. stupně (nebo 2. stupně – pro podskupiny) Podíl v každé kategorie umocněte Sečtěte umocněné podíly Pro D: odečtěte od 1 Pro IQV: D vydělte (1-1/K) (k je max. počet kategorií)

Příklad: D a IQV [Agresti, Agresti 1978] Occupational Status by Race and Year in W'alton County, Florida Index diverzity D (nomvar) pro bělochy (white population) v roce 1870: D = 1 - 0.347 = 0.653 V populaci bělochů v roce 1870 je pravděpodobnost, že dva náhodně vybraní jedinci budou z odlišné profesně-třídní skupiny 0,653.

Standardizace D na IQV IQV = ((k- 1)*D)/k nebo D/(1–1/K) 1–1/K = 1 – 1/6 = 0,833 → Jde o maximální možnou hodnotu D zde 6 profesně třídních kategorií) IQV = 0,653 / 0,833 = 0,784

Pokračování příklad D a IQV [Agresti, Agresti 1978] Spočítejte D a IQV pro další kategorie: Běloši 1870 Běloši 1885 Černoši 1870 Černoši 1885

Pokračování příklad D a IQV [Agresti, Agresti 1978] V každém roce je černošská populace v porovnání s bělošskou méně profesně-třídně heterogenní. V černošské populaci došlo za 15 let k poklesu diverzity profesně-třídních kategorií, zatímco u bělochů variance zůstala přibližně stejná. Běloši   Černoši 1870 1885 0,784 0,811 0,442 0,230

Míry variability nominální/ordinální proměnné v SPSS SPSS neobsahuje, ale existuje skript, který lze aplikovat na tabulku třídění 1.stupně (FREQUENCIES) Míry variability pro kategorizované proměnné http://acrea.cz/cz/skripty/mira-variability K dispozici jsou tyto míry: variační poměr, nominální variance, normovaná nominální variance, ordinální variance a normovaná ordinální variance. Definice těchto měr lze najít v knize Řehák J., Řeháková B. 1986. Analýza kategorizovaných dat v sociologii. Praha: Academia.

Míry variability pro kategorizované znaky v SPSS - skript Vstupní tabulka výsledek

Pro porovnání podskupin → SPLIT FILE Muži Ženy Ženy mají heterogennější zastoupení vystudovaných oborů než muži (nomvar ženy=0,8 vs. muži=0,6).

V SPSS: Syntax + Skript SORT CASES BY pohlavi. SPLIT FILE SEPARATE BY pohlavi. FREQ vzd_obor7. A pak aplikovat skript mira-variability → výsledek se spočte pro muže a ženy zvlášť

A nebo spočítat ručně (v Excelu)

Porovnání IQV v podskupinách/ populacích (bude doplněno)

Reference Agresti, Alan; Barbara F. Agresti. 1978. “Statistical Analysis of Qualitative Variation.” Sociological Methodology 9: 204-237. Řehák, J., B. Řeháková. 1986. Analýza kategorizovaných dat v sociologii. Praha: Academia.