Ringier ČR - Výzkumné oddělení

Slides:



Advertisements
Podobné prezentace
Testování statistických hypotéz
Advertisements

Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Statistická indukce Teorie odhadu.
Testování neparametrických hypotéz
A5M33IZS – Informační a znalostní systémy Testování modelů.
Testování hypotéz.
Testování statistických hypotéz
Odhady parametrů základního souboru
Cvičení 6 – 25. října 2010 Heteroskedasticita
ZPRACOVÁVÁME KVANTITATIVNÍ DATA II.
Testování závislosti kvalitativních znaků
t-rozdělení, jeho použití
Testování hypotéz (ordinální data)
Statistika Vypracoval: Mgr. Lukáš Bičík
Testování hypotéz přednáška.
Princip testování hypotéz, c2 testy.
1 Národní informační středisko pro podporu jakosti.
Náhodná proměnná Rozdělení.
Testování hypotéz vymezení důležitých pojmů
Analýza dat.
také Gaussovo rozdělení (normal or Gaussian distribution)
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Řízení a supervize v sociálních a zdravotnických organizacích
Odhady parametrů základního souboru
Odhady parametrů základního souboru. A) GNR B) neznámé r. ZS (přesné parametry) : ,   VS (odhady parametrů): x, s x.
Kontingenční tabulky Závislost dvou kvalitativních proměnných.
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Biostatistika 5. přednáška Aneta Hybšová
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Biostatistika 6. přednáška
Pohled z ptačí perspektivy
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
8. Kontingenční tabulky a χ2 test
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
PSY717 – statistická analýza dat
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
ADDS cviceni Pavlina Kuranova. Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých.
Aplikovaná statistika 2. Veronika Svobodová
Mann-Whitney U-test Wilcoxonův test Znaménkový test
Zpracování dat z kvantitativního výzkumu. Na základní škole se uskutečnil výzkum, kde se měřila hmotnost žáků 8.tříd. Výzkumu se účastnilo 33 žáků. Byly.
Měření v sociálních vědách „Měřit všechno, co je měřitelné, a snažit se učitnit měřitelným vše, co dosud měřitelné není“. (Galileo Galilei)
TESTY א 2 (CHÍ-kvadrát) TEST DOBRÉ SHODY TEST DOBRÉ SHODY TEST NEZÁVISLOSTI TEST NEZÁVISLOSTI Testy pro kategoriální veličiny Testy pro kategoriální veličiny.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Princip testování hypotéz,  2 testy. Příklad. V dané populaci nejsme schopni v daném okamžiku zjistit počet samců a samic. Předpokládá se (= je teoreticky.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
TESTY א 2 (CHÍ-kvadrát) TEST DOBRÉ SHODY TEST DOBRÉ SHODY TEST NEZÁVISLOSTI TEST NEZÁVISLOSTI Testy pro kategoriální veličiny Testy pro kategoriální veličiny.
Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)
INDUKTIVNÍ STATISTIKA
Přednáška č. – 4 Extrémní hodnoty a analýza výběrových souborů
Test dobré shody Fisherův přesný test McNemar test
Neparametrické testy parametrické a neparametrické testy
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
Neparametrické testy parametrické a neparametrické testy
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
Úvod do statistického testování
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
PSY117 Statistická analýza dat v psychologii Přednáška
Neparametrické testy pro porovnání polohy
Úvod do induktivní statistiky
Metodologie pro ISK 2 Kontrola dat Popis kategorizovaných dat
T-testy, neparametrické metody a analýza rozptylu (lekce 5-6)
Analýza kardinálních proměnných
Plánování přesnosti měření v IG Úvod – základní nástroje TCHAVP
7. Kontingenční tabulky a χ2 test
Základy statistiky.
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Transkript prezentace:

Ringier ČR - Výzkumné oddělení Χ2 test dobré shody Ringier ČR - Výzkumné oddělení

Použití Χ2 testu dobré shody Typy řešených úloh: Kontrola reprezentativity výběrového šetření – porovnáváme rozložení kategorizovaných proměnných s dostupnými statistickými daty, např. věk, příjem – Jsou výzkumná data reprezentativní? Hledáme vztah mezi proměnnými – nejedná se o intervalové (kardinální), ale o proměnné nominální, ordinální s malým počtem variant. Do jaké míry ovlivňuje jedna proměnná druhou? Rozložení (distribuce) hodnot jedné proměnné (závisle) je závislé (asociováno s) na rozložení hodnot druhé (nezávislé). K tomu abychom mohli hypotézu potvrdit či vyvrátit použijeme Chí-kvadrát test Předpoklady použití: kategorizované proměnné (nominální, ordinální, dichotomické, kardinální) minimálně 30 pozorování počty očekávaných četností menších než 5 (1) – kontroluje, zda lze Χ2 test použít (žádná očekávaná četnost nesmí být menší než 5 (1); 20 % očekávaných četností smí být menších než 5, ale žádná nesmí být menší než 1), není-li splněno, lze vyřešit sloučením kategorií. Jeho výsledek závisí na počtu řádků a sloupců (stupně volnosti) Není vhodný: Nedokáže změřit sílu vztahu, víme s určitou jistotou = pravděpodobností, že mezi proměnnými existuje vztah, který nebyl způsoben výběrovou chybou Není vhodný pro: 2 ordinální nebo 2 kardinální proměnné Neměl by se používat pro tabulky 2x2 Ringier ČR - Výzkumné oddělení

Ringier ČR - Výzkumné oddělení Testová statistika Statistické hypotézy: H0: pk = πk HA: pk ≠ πk pk jsou četnosti, které reprezentují výběr πk jsou četnosti, které předpokládá hypotéza Testová statistika: (Pearson Chí square) Řádky: i = 1…..r Sloupce: j = 1…..s Χ2 = ∑k (nk - nπk)2 nπk df = k – 1 nπk očekávané četnosti nπk očekávané četnosti, jaká četnost by byla v políčku tabulky, kdyby platila H0; (ni.*n.j)/n DF – počet stupňů volnosti, určuje velikost tabulky, kolik buněk tabulky musíme znát, abychom z nich a z celkového počtu respondentů dokázali ostatní buňky dopočítat = (počet řádků – 1) x (počet sloupců – 1). Sig. – dosažená hladina významnosti, udává pravděpodobnost toho, že mezi řádkovou a sloupcovou proměnnou neexistuje závislost. Je-li menší než 0,05; 0,01; 0,001 (eventuálně 0,1), pak pokládáme závislost za statisticky významnou s 95%; 99%; 99,9% spolehlivostí (respektive 90%). Ringier ČR - Výzkumné oddělení

Ringier ČR - Výzkumné oddělení Příklad 1: Řetězec cukráren nabízející 4 druhy zmrzliny otevřel provozovnu v nové lokalitě. Ve stávajících provozovnách byla dosud struktura prodeje jednotlivých druhů následující: vanilková 62 %, čokoládová 18 %, jahodová 12 %, pistáciová 8%. Po otevření provozovny v nové lokalitě byl prodej následující: vanilková 120, čokoládová 40, jahodová 18, pistáciová 22. Je struktura prodeje v nové lokalitě shodná či odlišná oproti dosavadním prodejům řetězce? H0: struktury jsou shodné HA: struktury nejsou shodné Pro získání očekávaných četností u prodeje zmrzliny aplikujeme dosavadní strukturu prodeje na celkové prodané množství v nové lokalitě (celkem 200): Např. u vanilkové zmrzliny: očekávaná četnost při celkem 200 prodaných jednotek = 62 % z 200 = 124 Spočítanou hodnotu testového kritéria porovnáme s příslušnou tabulkovou hodnotou pro k – 1, tedy 3 stupně volnosti, která je 7,82 při 95 % spolehlivosti. Vypočítaná hodnota testového kritéria (4,32) nepřekračuje mez vymezující kritický obor (7,82), nachází se v oboru přijetí a na zvolené 5%ní hladině významnosti hypotézu o shodě struktury prodeje nezamítáme. Ringier ČR - Výzkumné oddělení

Ringier ČR - Výzkumné oddělení

Chí kvadrát – CROSSTAB v SPSS Pearson Chi-Square – viz výpočet na straně 3 LIkelihood Ration Chi Square – jedná se o alternativu k Pearsnovu χ2 používá se v loglineárních modelech. Pro velké soubory jsou obě statistická kritéria přibližně stejná. LInear-by linear association chi-square: jedná se o funkci Pearsnova korealčního koeficientu, pouze pro kvantitativní proměnné (proměnné, kde má význam sledovat lineární vztahy). Ringier ČR - Výzkumné oddělení

Znaménkové schéma: Pokud jsme již pomocí hodnoty testového kriteria chí-kvadrát dospěli k zamítnutí H0, nabízí se otázka ve kterých kategoriích konkrétně je tento rozdíl významný? Je některá skupina typická v zájmu o daný výrobek/inklinuje k nějakému názoru či postoji? atd. Pro každé políčko tabulky určíme reziduum: reziduum: empirická četnost – očekávaná četnost standardizovaná rezidua: součet jejich druhých mocnin = Χ2 adjustované reziduum (používaná pro znaménkové schéma): rozdíl empirické četnosti od očekávané, dělený „odhadem standardizované chyby rezidua“ Statistické hypotézy: H0k: pk = πk HAk: pk ≠ πk postupně pro k = 1, …. K Každá z těchto hypotéz se testuje pomocí z-testu: √ nπk (1 - πk) zk = nk - nπk Pro znázornění významnosti odchylek výběrové a očekávané četnosti můžeme použít znaménkové schéma, a to tak, že: provedeme postupně z-testy pro jednotlivá pole tabulky/ zjistíme rezidua (pracujeme s adjustovanými reziduii „Δ“ ) určíme, zda hodnoty statistik překračují kritické hodnoty a každému poli přiřadíme znaménko plus nebo mínus podle toho, jak silně je odchylka signifikantní a zda je rozdíl skutečné a očekávané četnosti kladný nebo záporný, to provedeme podle tří zvolených hladin významnosti (5%; 1%; 0,1%, tomu odpovídá počet znamének): Podle „Statistika pro výzkum trhu a marketing“ - Řehák Hodnota kvantilu normovaného normálního rozdělení Hladina významnosti Přiřazená znaménka |zk| < 1,96 α > 5% Žádné znaménko |zk| >= 1,96 α = 5% + nebo - |zk| >= 2,58 α = 1% ++ nebo -- |zk| >= 3,21 α = 0,1% +++ nebo --- Ringier ČR - Výzkumné oddělení

CHÍ – KVADRÁT TEST - PŘÍKLADY Ve výběrovém šetření byly domácnosti rozděleny do dvou typů AB a CDE. Zjistěte, zda se tyto dva typy domácností liší podle struktury nákupu výrobku X a Y. Příklad 2 Pro výzkum bylo vybráno 1000 respondentů – mužů v následujícím věkovém složení: 0-14 let 200 mužů, 15 – 64 let 650 mužů, 65 a více let 150 mužů. Je tento výběr reprezentativní víme-li, že věkové složení mužů v ČR je v jednotlivých věkových skupinách 0-14 let 16 %, 15-64 let 73 % a 65+ 11 %. Příklad 3 Na základě výběrových šetření o oboru vzdělání a zastávané profesi po absolvování školy rozhodněte, zda je závislost mezi oborem studia a oborem uplatnění. Ringier ČR - Výzkumné oddělení