Popisné statistiky a explorační jednorozměrná analýza

Slides:

Advertisements

Podobné prezentace

Advertisements

Statistické funkce v tabulkovém kalkulátoru Excel MS

Testování neparametrických hypotéz

Analýza kvantitativních dat I./II. Typy dat Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 26/2/2012 UK FHS Historická sociologie, Řízení a supervize.

Testování statistických hypotéz

Statistické charakteristiky variability

NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ

Charakteristiky variability

Statistika Vypracoval: Mgr. Lukáš Bičík

Základní statistické pojmy a postupy

Tloušťková struktura porostu

Obsah statistiky Jana Zvárová

Jiří Šafr jiri.safr(zavináč)seznam.cz

Analýza kvantitativních dat I.

Analýza kvantitativních dat I. Popisné statistiky a explorační analýza

také Gaussovo rozdělení (normal or Gaussian distribution)

Obecné a centrální momenty

Řízení a supervize v sociálních a zdravotnických organizacích

Charakteristické rysy a typy jednorozměrného rozdělení četností.

Charakteristiky variability

Úvod: Vytvoření datové matice a pořízení dat Výzkum TV & knihy Jiří Šafr FHS UK, HiSo a ŘS Analýza kvantitativních dat AKD I. (II.) / Praktikum LS 2011,

Lineární regresní analýza

Jiří Šafr jiri.safr(AT)seznam.cz

Biostatistika 4. přednáška

Popisná statistika III

Teorie psychodiagnostiky a psychometrie

Popisné statistiky. Výskyt strupovitosti se zdá být ve vztahu s obsahem některých chemických prvků “ve slupkách“ hlíz. Některé odrůdy trpí strupovitostí.

PSY717 Statistická analýza dat 2010 První konzultace.

Pohled z ptačí perspektivy

Základy zpracování geologických dat

Na co ve výuce statistiky není čas

Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014

Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.

Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.

Normální rozdělení a ověření normality dat

Distribuční funkce diskrétní náhodná proměnná spojitá náhodná proměnná

Kvantitativní metody výzkumu v praxi

Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz

Popisná analýza v programu Statistica

Inferenční statistika - úvod

Popisná statistika úvod rozdělení hodnot míry centrální tendence

Základy popisné statistiky

Základy statistiky Základní pojmy. Základy statistiky Statistiku můžeme chápat jako činnost - získávání stat. údajů, jejich zpracování a vyhodnocení jako.

Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.

Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.

Odhady odhady bodové a intervalové odhady

Ukládání dat biodiverzity a jejich vizualizace

Základy statistické indukce

Induktivní statistika

Induktivní statistika

Popisná statistika: přehled

Popisná analýza v programu Statistica

Induktivní statistika

Základy zpracování geologických dat Rozdělení pravděpodobnosti

Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.

Spojitá a kategoriální data Základní popisné statistiky

ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných

Typy proměnných Kvalitativní/kategorická binární - ano/ne

Neparametrické testy pro porovnání polohy

Kapitola 3: Centrální tendence a variabilita

Metodologie pro ISK 2 Úvod do práce s daty

Metodologie pro ISK 2 Kontrola dat Popis kategorizovaných dat

Statistika a výpočetní technika

Analýza kardinálních proměnných

Autor: Honnerová Helena

Induktivní statistika

Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz

Základy statistiky.

Základy popisné statistiky

Distribuční funkce diskrétní náhodná proměnná spojitá náhodná proměnná

Transkript prezentace:

Popisné statistiky a explorační jednorozměrná analýza UK FHS Řízení a supervize (LS 2017+) Praktikum – elementární zpracování dat z kvantitativního výzkumu Popisné statistiky a explorační jednorozměrná analýza Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace 10. 6. 2017, 25. 3. 2015 (vytvořeno 29. 6. 2009)

Obsah Analýza kvantitativních dat (obecné principy) Dva základní typy statistik / přístupy ve statistice Připomenutí základních pojmů – typy znaků Jednoduché popisné statistiky → třídění dat 1. stupně (jednorozměrná analýza): Střední hodnoty: modus, medián, průměr Variance-rozptýlení dat: rozptyl, směrodatná odchylka Další míry variability-rozptýlení (rozpětí, kvantily, špičatost, šikmost) Střední hodnoty a míry variability v programu SPSS Míry variability pro kategoriální proměnné (úvod): Směrodatná odchylka pro dichotomickou proměnnou Variační poměr – v Vlastnosti rozdělení znaků Ověření normality rozložení dat Na co si dát v datech pozor Standardizace na z-skóre

Analýza kvantitativních dat Předmětem statistického zkoumání jsou hromadné jevy: výskyt vlastností u velkého počtu prvků – statistických jednotek (osoby, organizace, události,…) Jejich vlastnosti vyjadřují statistické znaky (= proměnné): kvantitativní (číselné)/ kvalitativní (slovní). Získání dat pomocí šetření: - úplné-vyčerpávající - výběrové (pouze u části populace → výběrový soubor, který reprezentuje základní soubor) [Cyhelský, Hustopecký, Závodský 1978]

Dva základní typy statistiky/ přístupy ve statistice Popisná statistika: metody pro zjišťování a sumarizaci informací → grafy, tabulky, popisné charakteristiky (průměr, rozptyl percentily,..). Cílem je explorace – průzkum dat. Inferenční statistika (statistická indukce): metody pro přijímání a měření spolehlivosti závěrů o populaci založených na informacích získaných z jejího výběru (odhad parametru na základě výběru z populace). Cílem je ověřování hypotéz.

Proces analýzy dat musíme promyslet již ve stadiu plánování dotazníku (modelu vztahů a hypotéz).

Nejprve malé připomenutí základních pojmů

Základní pojmy Populace Základní soubor Výběrový soubor (vzorek) Datový soubor Znak Třídění dat (jedno a vícestupňové) Absolutní četnost Relativní (poměrná) četnost Kumulativní četnost Střední hodnota Rozložení (distribuce) hodnot proměnné

Typy znaků – proměnných Kategoriální: Nominální Kategorie jsou rovnocenné (na úrovni jmen) př.: pohlaví, jména, typ rodiny, barva vlasů, profese Pořadové (ordinální) Kategorie lze seřadit do hierarchie Lze se ptát: vyšší/nižší apod., ale ne o kolik např.: spokojenost, stupeň souhlasu Kardinální (intervalové/poměrové): číselné proměnné lze se ptát větší/ menší a o kolik př.: věk, příjem, počet dětí → Různé typy znaků vyžadují v analýze odlišné přístupy (statistické míry).

Typy znaků – proměnných z hlediska úrovně měření Dichotomický př: Kraj Vícekategoriální (polynomický) Kategoriální (kategorizované) Kardinální – číselné (numerické) Zdroj: adaptováno podle [Babbie 1995: 137]

Kardinální znaky/proměnné Kardinální znaky rozlišujeme na: a) intervalové – nemají přirozený počátek: obsahový smysl má rozdíl ale nikoliv podíl Příklad: „Dnes je o 10 st. C tepleji“, ale ne „o 25% tepleji.“ / IQ nemá nulu b) poměrové – mají přirozený počátek (0 má význam), tudíž lze uvažovat i podíl. Příklad: „nulové“ i „dvojnásobné tržby“

Nominální znaky/proměnné Nominální znaky rozlišujeme na: a) více-kategoriální – mají tři a více hodnot (např. rodinný stav: svobodný/ná; ženatý/á; rozvedený/á; vdovec/vdova) Z hlediska analýzy jsou nejobtížněji analyzovatelné a výsledky interpretovatelné. b) dichotomické – mají jen dvě hodnoty lze je kódovat 0/1: 0 má význam jev nenastal; 1 jev nastal (např. proměnná žena: 1 = žena a 0 = muž(+ostatní)) Z hlediska analýzy mají určité výhody (např. pravděpodobnost (tj. %) odpovídá průměru) Více-kategoriální lze převést na sadu dichotomických proměnných (tzv. dummy znaky).

Princip zpracování kvantitativních dat Jak zpracovat získané odpovědi v dotaznících (nebo jinak generovaná data)? Nejprve je třeba vytvořit datovou matici. Takto pořízená data je třeba nejprve „vyčistit“ (označit uživatelsky definované chybějící hodnoty),případně dále upravit (např. rekódovat, vytvořit nové syntetické znaky, popsat hodnoty/názvy-labelovat) → data-management. Teprve potom můžeme přistoupit k samotné analýze dat. K tomu všemu nám může napomoci specializovaný statistický software, například SPSS.

Případy (respondenti) Proměnná Existují různé typy dat (datových matic), pro nás bude základní Dvourozměrná datová matice (2-way data): PŘÍPADY × PROMĚNNÉ Případy (respondenti) Proměnná Hodnoty proměnné

Data 2-way: PŘÍPADY × PROMĚNNÉ Person is the ‘‘object’’ and level of education is the ‘‘attribute’’ for which the researcher wants a value assigned to each object. (Nejen) v SPSS se lze setkat se 2 základními typy 2-way dat (někdy označovaná také jako „SPSS data“), tj. data uspořádaná tak, že případy jsou v řádcích, proměnné ve sloupcích: Individuální mikrodata – data kde případy jsou individuální pozorování, nejčastěji respondenti, ale např. také novinové články Příklad: Důvěra lidí v prezidenta (informace o hodnotě proměnné u každého respondenta). Agregovaná data – individuální data sloučená za určitou vyšší organizační jednotku (např. školy, regiony nebo státy) většinou sumované z individuálních údajů Ty mohou mít dále různou podobu Kombinovaná individuální mikrodata s kontextuálními daty (buď na agregované úrovni nebo jako kontext společný určité skupině individuí např. z oficiálních statistik nebo jiné formy výzkumu). Individuální mikrodata s opakovaným měřením v panelové studii. Existují ale i jiné typy – uspořádání dat, která lze analyzovat, mj.: tabelární data (např. kontingenční tabulka), distanční data (např. korelační matice), časové řady a dal.

Jednoduché popisné statistiky třídění dat 1. stupně: Střední hodnoty Míry variability

Střední hodnoty nominální znaky → modus Pomocí „jednoho čísla“ vyjadřujeme vlastnost znaku → typická hodnota datové řady (těžiště hodnot) nominální znaky → modus ordinální znaky → medián (aritmetický průměr) intervalové znaky → aritmetický průměr Ale pozor, samotná střední hodnota k popisu dat nestačí!

Základní střední hodnoty (míry centrální tendence) Modus (Mo) = kategorie s největší četností Nelze s ním provádět žádné algebraické operace. Může existovat i více modálních kategorií. Medián (Me) = hodnota, která je ve prostředku všech pozorování seřazených podle hodnot nebo jinak řečeno: Hodnota proměnné, před níž je polovina pozorování majících menší hodnotu a za níž je druhá polovina pozorování majících větší hodnotu než má medián. Při sudém počtu hodnot: průměr dvou prostředních hodnot. _ Aritmetický průměr (X) = součet hodnot dělený počtem pozorování Pro symetrické rozložení hodnot je Mo = Me = X

Modus (mode) [Babbie 1995]

Medián Poznámka: zde je důležité, aby hodnoty znaku byly seřazeny. Máme 31 případů (žáků) seřazených podle věku, tj. medián je uprostřed (16. žák): 50 % případů je pod a 50 % nad ním. Zde je medián zároveň modem i průměrem. [Babbie 1995]

Průměr [Babbie 1995]

Střední hodnoty a jejich limity Střední hodnota → popis rozložení hodnot znaku „pomocí jednoho „typického“ čísla“ – těžiště uspořádání hodnot znaku To má pochopitelně limity: - jedno číslo k popisu znaku většinou nestačí (málokdy mají všechny případy přibližně stejnou hodnotu) - neříká nic o variabilitě – rozptýlení dat - moc se nehodí pro kategoriální znaky (→ místo modusu ukazujeme raději celou distribuci hodnot v %) Proto je vždy používáme zároveň s údaji o variabilitě, rozptylu → “kvalitativní“ informace

Základní charakteristiky variability → „Kvalitativní“ charakteristika středních hodnot (u kardinálních-číselných znaků) Rozptyl = střední hodnota kvadrátů odchylek od střední hodnoty Směrodatná odchylka = odmocnina z rozptylu náhodné veličiny (na rozdíl od rozptylu je v původních jednotkách proměnné) Výběrová směrodatná odchylka (dtto ale ve výběrovém souboru → malinká úprava ve vzorci, logicky jde o odmocninu z výběrového rozptylu) Jak uvidíme dále variabilitu hodnot proměnné lze popsat i podrobněji pomocí dalších měr.

Charakteristiky variability kardinálních znaků: Rozptyl a Směrodatná odchylka Udávají koncentraci nebo rozptýlení kolem střední hodnoty. Ukazují na „kvalitu“ průměru. Rozptyl (σ2) = součet kvadratických odchylek od průměru dělený rozsahem výběru (pokud jde o výběrový soubor tak navíc zmenšeným o 1) (anglicky Variance) Směrodatná odchylka (σ) = odmocnina z rozptylu (anglicky Standard Deviation – STDDEV) Směrodatná odchylka je míra rozptýlení hodnot od průměrné (střední) hodnoty vyjádřená v původních hodnotách, v nichž proměnnou měříme (např. u věku v letech). Naproti tomu samotný rozptyl je bezrozměrný a špatně se tak interpretuje. Existují také míry variability pro kategoriální (nominální) znaky, viz dále.

Výpočet směrodatné odchylky pozorování: 2 5 4 3 1 8 6 7 odchylky od prům.: -2 -1 -3 čtverce odchylek 9 16 Máme pozorování: 2 5 4 3 1 8 2 6 2 7 součet řady = 40; počet případů n = 10; průměr = 40/10 = 4 odchylky od průměru (X=4): -2 1 0 -1 -3 4 -2 2 -2 3 (součet odchylek je 9 – 9 = 0) čtverce odchylek: 4 1 0 1 9 16 4 4 4 9 součet čtverců odchylek = 52 průměrná čtvercová odchylka tj. rozptyl σ2= 52/10= 5,2 směrodatná odchylka (odmocnina z rozptylu) s = 2,28 Existují dva vzorečky: pro populační směrodatnou odchylku (zde – pro celou populaci) a pro výběrovou, tj. jen pro vzorek z populace, v níž je ve jmenovateli místo „n „n-1“.

Normální rozložení hodnot a směrodatná odchylka Rozložení hodnot (tvar křivky) je dán průměrem a rozptylem. Zde jde o normované (standardizované) normální rozdělení, kde μ=0 a σ=1 Pokud mají naše data zhruba toto rozložení hodnot, pak platí, že v ploše pod křivkou vymezené +/- 1 směrodatnou odchylkou od průměru je 68 % případů (cca 2/3), lidově řečeno „většina“. Násobky Směrodatné odchylky Jde o teoretické rozložení hodnot, v praxi vždy dochází k nějaké odchylce od tohoto normálního rozložení. Pro většinu analýz kardinálních znaků (např. průměr nebo korelace) potřebujeme, aby se rozložení proměnných co nejméně odchylovalo od tohoto tvaru (gaussovy křivky). http://www.stat.tamu.edu/~west/applets/normaldemo1.html

Výpočet směrodatné odchylky (př. 2) Obdobné jako předchozí příklad, ale vynechali jsme jedno – poslední pozorování (n=9). Příklad 2. Máme pozorování: 2 5 4 3 1 8 2 6 2 Součet řady = 33; n = 9; průměr = 33/9 = 3,66 odchylky od průměru: -1,66 1,34 0,34 -0,66 -2,66 4,34 -1,66 2,34 -1,66 součet odchylek je = 0 čtverce odchylek: 2,76; 1,80; 0,12; 0,44; 7,08; 18,84; 2,76; 5,48; 2,76 součet čtverců odchylek = 42,04 průměrná čtvercová odchylka tj. rozptyl = 42,04 /9= 4,67 směrodatná odchylka (odmocnina z rozptylu) = 2,16

Příklad k procvičení DATA: Věk AKD1 LS 2012 Porovnejte střední hodnoty (průměr, medián) a směrodatnou odchylku u skupin studentů z Denního a Kombinovaného studia Denní 23 25 24 22 Kombinované 33 30 48 25 31 46 49 38 26 28

Směrodatná odchylka v Excelu STDEVPA pro základní soubor STDEVA pro výběrový soubor V SPSS je výpočet pro výběrovou směrodatnou odchylku StD (tj. pro vzorek z populace).

Další popisné statistiky - variabilita Pro kardinální (číselné) proměnné Minimum / maximum Rozpětí (= max - min) Kvantily: dolní a horní kvartil → mezikvartilové rozpětí (jsou ale jiné členění do stejně početně zastoupených skupin, např. tercily (33 % / 33 % / 33 %), decily (10 % / 10 % …) Koeficienty šikmosti (Skewness) Koeficienty špičatosti (Kurtosis) Variační koeficient (= podíl směr.odchylky a průměru) Pro kategoriální proměnné míry variability (variační koeficient a jeho varianty) – viz AKD II. 9. Míry variability: variační koeficient a další indexy http://metodykv.wz.cz/AKD2_variacni_koef.ppt

Různé typy proměnných a odpovídající popisné statistiky (střední hodnoty, míry variability, grafy, …) Zdroj: [Rachad 2003: 81].

Šikmost a špičatost Šikmost (Skewness) Nulová šikmost: hodnoty rovnoměrně rozděleny vlevo a vpravo od střední hodnoty. Symetrická rozdělení mají šikmost nula. Kladná šikmost: vpravo od průměru se vyskytují odlehlejší hodnoty nežli vlevo (rozdělení má tzv. pravý ocas) a většina hodnot se nachází blízko vlevo od průměru. U záporné šikmosti je to naopak. Pro rozdělení s kladnou šikmostí obvykle platí, že jeho modus je menší nežli medián a ten je menší nežli střední hodnota. Pro zápornou šikmost opět naopak. Špičatost (Kurtosis) Normální rozdělení má špičatost nula. Kladná špičatost: většina hodnot leží blízko střední hodnoty a hlavní vliv na rozptyl mají málo pravděpodobné odlehlé hodnoty. Křivka hustoty je špičatější, nežli u normálního rozdělení. Záporná špičatost: rozdělení je rovnoměrnější a jeho křivka hustoty je plošší nežli u normálního rozdělení.

Šikmost a špičatost → odchylky od symetrie (šikmost) a variability (špičatost/plochost) [Hanousek, Charamza 1992: 21]

Střední hodnoty a míry variability v SPSS K dispozici máme více možností, např. pomocí příkazů: FREQUENCIES, MEANS, DESCRIPTIVES a EXAMINE. FREQUENCIES vek /STATISTICS MEAN STDDEV MEDIAN MODE. *průměr, směrodatná odchylka, medián a Modus (v rámci STATISTICS) + tabulka frekvencí (počty a %), kterou lze vypnout pomocí přidání /FORMAT NOTABLE. MEANS vek /CELLS MEAN STDDEV MEDIAN COUNT. *průměr, směrodatná odchylka, medián a počet platných případů. DESCRIPTIVES vek. *průměr, směrodatná odchylka, počet platných případů; vhodné pro porovnání hodnot u více proměnných (bohužel neumí medián). EXAMINE vek /PLOT NONE. *velké množství statistik pro střední hodnoty a variabilitu, zde (PLOT NONE) bez grafů.

Střední hodnoty a míry variability v SPSS (output) Frequencies Means Descriptives Explore

Směrodatná odchylka pro dichotomickou proměnnou (podíl) Variance = p*q kde p (resp. q) je pravděpodobnost (tj. p = % / 100). Směrodatná odchylka = √p*q nebo √p(1-p) Příklad: p = 0,29 q = 0,71 StD = √0,29*0,71 = 0,45 Poznámka: Všimněte si, že hodnota rozptyl/StD je zcela závislá na hodnotě parametru (%). Pokud máme hodnoty dichotomické proměnné kódovány jako 0/1 (např. 0=nepracuje, 1=pracuje), pak lze v SPSS použít výpočet pro kardinální znak, např. Descriptives (vzorec není ale stejný – výsledek se může nepatrně lišit).

Kvantily Kvantily (obecně) → členění do stejně početně zastoupených skupin Tercily: tři skupiny (33 % / 33 % / 33 %) Decily: deset skupin (10 % / 10 % …) Kvartily: čtyři skupiny (25 % / 25 % / 25 % / 25 %) → mezikvartilové rozpětí: rozdíl horního a dolního kvartilu (x75 – x25) Zobrazujeme je (spolu s mediánem) v Boxplotu → jejich poloha ukáže na zešikmení (čím blíže je H nebo D kvartil k mediánu, tím větší zešikmení) Určení kvantilů v SPSS pomocí NTILES: FREQUENCIES vek /NTILES (4). *číslo v závorce určuje, pro kolik stejných skupin chceme určit hranice hodnot (na jejich základě můžeme dále rekódovat kardinální-spojitý znak na ordinální-kategoriální).

Boxplot – vousaté krabičky: vizualizace distribuce KVARTILY dělí statistický soubor na desetiny: dolní Q0,25 (Q1) a horní Q0,denní5 (Q3) Interkvartilové rozpětí: HH = horní kvartil + 1,5 násobku interkvartilového rozpětí DH = dolní kvartil + 1,5 násobku interkvartilového rozpětí

Variabilita hodnot u nominálního znaku Na rozdíl od kardinálních-numerických znaků tvar rozložení nedává smysl (v histogramu), protože kategorie nemají žádný číselný - hierarchický význam. (u ordinálních znaků tvar rozložení ovšem určitou informaci podává). Variabilita znaku je dána rozptýleností / koncentrací podílů (%) v jednotlivých kategoriích (nulová je tehdy jsou-li kategorie % stejně zastoupené).

Míry variability pro kategoriální proměnné poněkud složitější situace (než u kardinálních znaků), zde jen úvod (v, D) pro nominální proměnné: Variační poměr – v Nominální rozptyl – D (nomvar) (~ Giniho koeficient) → relativní počet všech dvojic, které nejsou ve stejné kategorii Normalizovaný nominální rozptyl (norm. nomvar nebo IQV) Entropie – H Normalizovaná entropie – H* pro ordinální proměnné: Ordinální rozptyl - dorvar Variační koeficient a jeho varianty – viz AKD II. 9. Míry variability: variační koeficient a další indexy http://metodykv.wz.cz/AKD2_variacni_koef.ppt Viz také http://iastat.vse.cz/Nominalni.html

Vlastnosti měr variability kategoriálních znaků Čím vyšší hodnota tím vyšší heterogenita souboru Jsou rovny nule, když je celý soubor soustředěn do jedné kategorie (nulové rozptýlení) → úplná homogenita Maximální hodnota = rovnoměrné rozložení dat (kategorií) → úplná heterogenita Ukazují do jaké míry, jsou data koncentrována kolem své charakteristické hodnoty (→ modální kategorie), tj. jak moc je tato hodnota typická pro celý soubor. Zdroj: [Řehák, Řeháková 1986: 66-69]

Variační poměr – v Nejjednodušší míra variability. Pokud je více modálních kategorií uvažujeme nejvyšší četnost pouze jednou. Výhodou v je jednoduchost výpočtu. Nevýhodou v je, že je založeno pouze na modální četnosti (normvar – D je pracnější,ale odráží celou strukturu tabulky). Zdroj: [Řehák, Řeháková 1986: 66]

Příklad: Variační poměr – v (DATA) [Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]

Příklad: Variační poměr – v Způsob získávání denního tisku u pravidelných čtenářů, pro Periodikum J (N = 1289) Předplácí Kupuje K disp. v práci Půjčuje si Získává jinak Celkem N % z celku 48,3% 24,1% 6,9% 16,4% 43,0% 100 116 8,9 lze spočítat v Excelu: v = 1 – (56,028 / 116) = 0,517 V může sloužit k porovnání variability rozložení několika znaků (např. zde různých periodik) nebo podskupin v třídění 2.stupně (podobně jako Směrod.odchylka u kardinálních znaků). Zde způsoby získávání u různých periodik: např. periodikum J (v=0,517) má dvojnásobný variační poměr než periodikum H (v=0,224), tj. způsoby jeho získávání jsou mnohem variabilnější (všimněte si, že u tiskoviny H představuje modus „Kupuje“ celých 77,6 %). Zdroj: [Řehák, Řeháková 1986: 68-69]

Nominální variance (nomvar) Index diversity (D) nomvar nebo D Kde: p – podíl pozorování v dané i-té kategorii → podíl všech dvojic jednotek, které nemají stejnou hodnotu znaku nebo také → pravděpodobnost, že dva náhodně vybraní jedinci z populace budou patřit do rozdílných kategorií. Index je tím vyšší, čím více je kategorií a čím více jsou pozorování rozptýlena rovnoměrně v těchto kategoriích. [Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]

Více k varianci kategoriálních znaků v AKD II. http://metodykv. wz SPSS míry variability pro kategoriální proměnné neumí, ale na již hotovou tabulku (FREQUENCIES) lze v outputu použít skript Míry variability pro kategorizované proměnné http://acrea.cz/cz/skripty/mira-variability

Vlastnosti rozdělení znaků popisná statistka pro kardinální znaky v grafickém znázornění

Normální rozložení hodnot a směrodatná odchylka Rozložení hodnot (tvar křivky) je dán průměrem a rozptylem. Zde jde o normované (standardizované) normální rozdělení, kde μ=0 a σ=1 Platí, že v ploše pod křivkou vymezené +/- 1 směrodatnou odchylkou od průměru je 68 % případů (cca 2/3). Jde o teoretické rozložení hodnot, v praxi vždy dochází k nějaké odchylce od tohoto normálního rozložení. Pro většinu analýz kardinálních znaků (např. průměr nebo korelace) potřebujeme, aby se rozložení proměnných co nejméně odchylovalo od tohoto tvaru (gaussovy křivky). http://www.stat.tamu.edu/~west/applets/normaldemo1.html

Symetrie, variabilita Vlastnosti rozložení hodnot znaku, jsou dány střední hodnotou (průměrem) a rozptylem hodnot [Hanousek, Charamza 1992: 21]

Bimodální (dvouvrcholové) rozložení Proměnnou nejlépe reprezentují dvě střední hodnoty (průměry). Zdroj: [Howell 2011: 52]

Šikmost a špičatost → odchylky od symetrie (šikmost) a variability (špičatost/plochost) [Hanousek, Charamza 1992: 21]

A k čemu variance–variabilita dat (směrodatná odchylka) je? Směrodatná odchylka ukazuje na to, jak „kvalitně“ popisuje průměr data. (nulová STDEV = všechny případy mají stejnou hodnotu, tj. průměr) → uvádíme-li průměr, tak vždy uvedeme i směrodatnou odchylku (StDev) Distribuci hodnot – varianci v datech musíme věcně interpretovat (StdDev, míry šikmosti, percentily, …). Před výpočty u numerické proměnné (korelace, průměr, …) ověřujeme rozložení hodnot, zda se (výrazněji) nevychyluje od normálního rozložení. A pro výběrová data, tj. náhodný(!) vzorek z populace platí: Normální rozdělení je vlastně zákonem chyb měření (a to i těch o nichž nevíme, tj. přímo jsme je neměřili). A na tom jsou postaveny principy inferenční statistiky (testování hypotéz). Směrodatná odchylka slouží k výpočtu Standardní chyby (S.E.) → kvantifikace chyb měření (výběrové chyby)

Význam variance hodnot znaků Zjednodušeně řečeno: naším záměrem je, aby v datech–proměnné byla „dostatečná“ variabilita (tj. proměnlivost hodnot), která bude nenáhodná, tj. budeme ji schopni (většinou pomocí dalších „nezávislých“) proměnných vysvětlit. Pokud je variabilita prakticky nulová (či pouze náhodná), pak není co vysvětlovat (to v podstatě platí i, pokud je naopak extrémně vysoká). A abychom v datech dosáhli „dostatečné“ variability, to je úkol již pro přípravné fáze výzkumu (formulace modelu vztahů (výzkumných otázek/hypotéz) → rozhodnutí o zahrnutí indikátorů/proměnných, jejich operacionalizace, stanovení jednotek sběru dat a analýzy, velikosti a metodě výběru …).

Na co si dát v datech dát pozor Variance a střední hodnoty

Vzájemná poloha průměru a mediánu

Průměr a rozptyl nejsou všechno! Ve všech čtyřech případech je stejné: maximum 170 průměr 85 směrodatná odchylka 25,8 Výsledek testu (interval hodnot) případ 1 případ 2 případ 3 případ 4 20-29 1 - 30-39 4 2 40-49 6 5 12 50-59 8 10 34 60-69 16 70-79 17 80-89 18 90-99 100-109 110-119 7 120-129 130-139 3 140-149 150-159 160-169 šikmost 0,00 0,57 špičatost -0,43 0,18 -1,23 -1,77 Zdroj: [Hanousek, Charamza 1992: 38-39]

Variabilita rozložení hodnot - doporučení kardinální znaky Průměr a směrodatná odchylka nestačí, uvádějte ještě alespoň medián (vztah průměru a mediánu ukazuje na směr vychýlení) Grafické znázornění variability → Histogram (případně boxplot) Pokud chceme variabilitu popsat čísly: Koeficienty šikmosti (Skewness) a špičatosti (Kurtosis) nebo mezikvartilové rozpětí (rozdíl horního a dolního kvartilu) Vždy věnujeme nejprve pozornost extrémním hodnotám. kategoriální (nominální) znaky Tabulka frekvencí (s %) nebo graficky → Barchart

Ověření normality rozložení dat Histogram → vizuálně orientačně Podrobněji a přesněji: Q-Q graf (quantile-quantile): ukazuje kvantily pozorované distribuce proměnné proti kvantilů zvolené distribuční funkce Normálně rozložená data → přímkový charakter v SPSS: Analyze, Descriptive statistics, Q-Q plots Kolmogorov-Smirnov test: H0 = data jsou normálně rozložena, Pozor na interpretaci výsledku: nízké! p (< 0,05) → distribuce dat se statisticky signifikantně lišší od normální distribuce. v SPSS: Analyze, Nonparametric Tests, 1-Sample K-S... Dojde-li k porušení normality rozložení → rekódování, transformace (např. logaritmická), použití neparametrických metod

Rozložení četností a Q-Q graf

Standardizace na z-skóre odstranění původní metriky u kardinálních-číselných znaků Z – skóry: průměr X=0 a StD =1 V transformované proměnné je aritmetický průměr roven nule a směrodatná odchylka je jedna. Odchylka od průměru / směrodatnou odchylkou: Od každého pozorování odečteme průměr a vydělíme směrodatnou odchylkou. z-skóre = kolik standardních odchylek je danná hodnota vzdálena od střední hodnoty (aritmetického průměru) Většina nově transformovaných hodnot je v rozmezí od -3 do 3. → umožňuje porovnat znaky s odlišnou metrikou.

Standardizace na z-skóre V SPSS jednoduše pomocí Descriptives přidáním SAVE: DESCRIPTIVES var1 /SAVE. V datech vznikne proměnná automaticky pojmenovaná Zvar1 (v Labelu je uvedeno „Zscore:“ a původní pojmenování) Pozor: Proměnná musí mít přibližně normální rozložení! (kontrolujeme aspoň vizuálně pomocí Histogramu) Pokud ne, pak lze transformovat na percentily. Existují i jiné principy standardizace dat, např. přímá standardizace.

Některé webové nástroje pro analýzu Index of On-line Stats Calculators http://www.physics.csbsju.edu/stats/Index.html Exact r×c Contingency Table: http://www.physics.csbsju.edu/stats/exact_NROW_NCOLUMN_form.html Statistical Calculations http://statpages.org/ R. Webster West applets http://www.stat.tamu.edu/~west/ http://www.stat.tamu.edu/~west/ph/ Učebnice: Interstat - hypertextová interaktivní učebnice statistiky pro ekonomy http://www.stahroun.me.cz/interstat/ Statnotes: Topics in Multivariate Analysis, by G. David Garson http://faculty.chass.ncsu.edu/garson/PAdenní65/index.htm StatSoft - Elektronická učebnice statistiky (anglicky) http://www.statsoft.cz/page/index2.php?pg=navigace&nav=31 http://www.statsoft.com/textbook/ Více na webu v sekci Webové nástroje pro analýzu dat www.metodykv.wz.cz/index.htm#webnastroje

Nejprve se ptej, k čemu analýza tvá má sloužit, potom teprv výběrem metody dej se soužit. [Hanousek, Charamza 1992 : 61]

→ dvourozměrná (a vícerozměrná) analýza, elaborace vztahů … Jednorozměrnou analýzou tj. tříděním dat prvního stupně (univariate analysis) to teprve vše začíná … → dvourozměrná (a vícerozměrná) analýza, elaborace vztahů … A navíc, pokud máme výběrová data → inferenční statistika (intervalové odhady, statistické testování hypotéz, …)

Literatura Babbie, E. 1995. The Practice of social Research. 7th Edition. Belmont: Wadsworth. → kapitola 15 – Elementary Analyses. de Vaus, D., A. (1985) 2002. Surveys in Social Research, Fifth Edition. St Leonards NSW: Allen & Unwin / London: Routledge. → kapitola 13 – Univariate analysis. Disman, M. 1993. Jak se vyrábí sociologická znalost. Praha: Karolinum. → kapitola 8 – Já ti to spočítám aneb statistika pro úplně beznadějné případy (jen do st. 195). Hanousek, Charamza. 1992. Moderní metody zpracování dat. Matematická statistika pro každého. Praha: Grada. Řehák, J., B. Řeháková. 1986. Analýza kategorizovaných dat v sociologii. Praha: Academia. Howell, D. C. 2014. Fundamental Statistics for the Behavioral Sciences. Belmont: Wadsworth.