Jiří Šafr jiri.safr(zavináč)seznam.cz

Slides:



Advertisements
Podobné prezentace
Testování neparametrických hypotéz
Advertisements

Jiří Šafr jiri.safr(zavináč)seznam.cz
Monte Carlo permutační testy & Postupný výběr
Odhady parametrů základního souboru
Statistika schématicky Tomáš Mrkvička. Základy znáte Konfidenční intervaly Porovnání 2 či více výběrů Regresní modely Základy časových řad.
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Náhodná proměnná Rozdělení.
Obecný lineární model Analýza kovariance Nelineární modely
Řízení a supervize v sociálních a zdravotnických organizacích
Kontingenční tabulky Závislost dvou kvalitativních proměnných.
Analýza kvantitativních dat II. / Praktikum Vícenásobné výběrové otázky (Multiple response) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Lineární regrese.
Obecný lineární model Fitované hodnoty and regresní residuály
Simultánní rovnice Tomáš Cahlík
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Korelace a elaborace aneb úvod do vztahů proměnných
Lineární regrese.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Biostatistika 6. přednáška
Další spojitá rozdělení pravděpodobnosti
Biostatistika 7. přednáška
Test dobré shody Fisherův přesný test McNemar test
Kontingenční tabulky.
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Základy zpracování geologických dat
ADDS cviceni Pavlina Kuranova. Fischerův exaktní test.
Teorie psychodiagnostiky a psychometrie
Analýza kvantitativních dat I. Vztahy mezi 3 znaky v kontingenční tabulce - úvod Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace
Analýza kvantitativních dat II. TEST 1 (v LS 2012) Aktualizované verze jsou k dispozici na Jiří Šafr jiri.safr(zavináč)seznam.cz.
2. Vybrané základní pojmy matematické statistiky
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
8. Kontingenční tabulky a χ2 test
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz
Jak statistika dokazuje závislost
Motivační příklad – 1a Vliv rodičů a prostředí na vývoj mláďat Nejstarší mládě v každém hnízdě měřeno ve věku X dní Vysvětlující údaje: počet mláďat, stáří.
1. cvičení
Inferenční statistika - úvod
IV..
INDUKTIVNÍ STATISTIKA
Opakování – přehled metod
Logistická regrese pro kategoriální závislé proměnné
Induktivní statistika - úvod
Test dobré shody Fisherův přesný test McNemar test
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 22/2/2017
Neparametrické testy parametrické a neparametrické testy
- váhy jednotlivých studií
Neparametrické testy parametrické a neparametrické testy
Proč statistika ? Dva důvody Popis Inference
PSY252 Statistická analýza dat v psychologii II Seminář 5-6
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Parciální korelace Regresní analýza
Typy proměnných Kvalitativní/kategorická binární - ano/ne
PSY117 Statistická analýza dat v psychologii Přednáška
Neparametrické testy pro porovnání polohy
Statistika a výpočetní technika
Lineární regrese.
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 21/2/2018
7. Kontingenční tabulky a χ2 test
Jiří Šafr jiri.safr(zavináč)seznam.cz
Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz
Základy statistiky.
Základy popisné statistiky
Transkript prezentace:

Jiří Šafr jiri.safr(zavináč)seznam.cz UK FHS Historická sociologie (LS 2011-14+) Analýza kvantitativních dat III. Logistická regrese pro kategoriální závvislé proměnné Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace 26.4. 2015, 13.5. 2014

Logistická regrese úvod

Logistická regrese (alternativa k lineární regresi, tam kde ji nemůžeme použít). Od lineární regrese se liší v tom, že predikuje pravděpodobnost, zda se určitá událost stala či nikoliv (0/1) Nezávislé proměnné mohou být jak kategoriální - diskrétní (faktory) nebo číselné – spojité (prediktory). Výsledný model lze použít k budoucímu klasifikování (predikci). Lze jí zobecnit jako variantu zobecněného lineárního modelu (Generalised Linear Model)

Logistická regrese podle typu závislé proměnné Binární: pouze dvě hodnoty (0/1), např. volil / nevolil Ordinální: tři a více hodnot ordinálně (hierarchicky) uspořádaných, např. míra souhlasu: „rozhodně ne – spíše ne – spíše ano – rozhodně ano“ Multinominální: více kategorií mezi nimiž je pouze odlišnost, např. náboženská orientace: „katolík – protestant – ateista – ostatní“

Poměr šancí - ODDS RATIO (OR) OR ukazuje asociaci v kontingenčních tabulkách šance (O) = poměr pravděpodobnosti jedné možnosti p1 (událost nastala) ke druhé p2(událost nenastala) (šance nebo také riziko) OR = poměr dvou šancí (odds) OR = f11 f22 / f12 f21 OR = f11*f22 / f12*f21 =

Vlastnosti poměru šancí (OR) OR - podíl šancí výskytu (rizika výskytu) pro dvě různé hodnoty dvou proměnných. OR: A k B a B k A jsou komplementární, vždy však s opačným směrem 1:3 =0,33 a 1/0,33 =3 OR je kladné číslo, kdy: >1 vyšší šance a <1 nižší šance, ale pozor rozpětí je nesymetrické: 0 až 1 a 1 až ∞ Proto se také používá přirozený logaritmus poměru šance LOR <∞;∞> OR není citlivé na marginální distribuce (změníme-li velikost n o konstantu, OR zůstávají stejné) Pomocí OR můžeme vyjádřit vztahy mezi kategoriemi v kontingenční tabulce (a to nejen ve čtyřpolní 2 x 2)

Pravděpodobnost, Šance, Logit a Poměr šancí   chlapec dívka celkem úspěch 73 15 88 neúspěch 23 11 34 96 26 122   ano ne a b c d Pravděpodobnost = relativní četnost p = y/n (po vynásobení 100 dostaneme %), např. podíl úspěšných chlapců je 73/96 =0,76. Podmíněná střední hodnota π Šance je podíl pravděpodobnosti, že Y = 1 a pravděpodobnosti, že Y ≠ 1 šance(Y = 1) = P(Y = 1) / [1 – P(Y = 1)] nebo C = p/(1-p) např. šance přijetí chlapců je 73/23=3,17 (přijetí dívek 15/11 =1,36) → odhad pravděpodobnosti přijetí na VŠ Šance ale má hodnoty od 0 do nekonečna proto ji zlogaritmujeme na Logit = přirozený logaritmus šance (poměr výskytu) Logit můžeme převést zpět na šanci pomocí exponenciální funkce šance(Y = 1) = exp[logit(Y)]

Logistická funkce, Logitová transformace Logistická regresní funkce - regresní funkce s logitovou transformací π Zjišťujeme zda událost (jev) nastala nebo ne → zda nastala či nikoliv odhadujeme z dichotomické hodnoty závislé proměnné, Je-li predikovaná pravděpodobnost > 0,5 pak se událost stala, je-li < 0,5 pak se nestala, Musíme ale nejprve provést logitovou transformaci → regresní koeficienty mají jiný význam než v lineární regresi metrické proměnné Příklad takové funkce Regresní rovnice pro transformovanou šanci na logit je logit(Y) = α + β1X1 + … + βKXK Zdroj: Pecáková 2007: 88] a [Řeháková 2000]

Understanding-Probability.wmv

Rovnice LOGREG

Vícenásobný logistický regresní model Logaritmus pravděpodobnostního poměru ln(L1/L0) je lineární funkcí nezávislých proměnných. Předpoklady o rozdělení nezávislých proměnných nejsou: mohou být kategoriální - diskrétní (faktory) nebo číselné – spojité (prediktory).

Logistický model Nevhodný vhodný Lze nastavit v LogReg

Interpretace regresních koeficientů Máme možnost buď interpretovat regresní koeficient b, ten je ale vyjádřen v logaritmech, proto někdy je transformujeme zpět na šanci (exp(b)) Kladné hodnoty bi zvyšují pravděpodobnost L1 ; záporné snižují logistický koeficient βk lze interpretovat jako změnu logitu spojenou s jednotkovou změnou hodnoty nezávislé proměnné Xk za předpokladu, že hodnoty ostatních nezávislých proměnných se nezmění

Test významnosti regresních koeficientů Ověřujeme hypotézu, že regresní koeficient v modelu se liší od nuly (stejně jako v OLS) Waldovo kritérium W = (bi / s(bi))2 (příslušný koeficient dělený vlastní směr odchylkou)2 Pokud je hodnota koeficientu b (a tedy i jeho směrodatná odch. vysoká) test není spolehlivý → použít raději model s a model bez této proměnné a modely porovnat.

Vhodnost modelu (Goodnes of fit ) a výběr modelu Dva zahnízděné (nested) modely můžeme porovnat pomocí Chíkvadrátu: nízké hodnoty X2 ukazují na shodu (pozorovaných a očekávaných četností) Vhodnost modelu můžeme (podobně jako v OLS) posoudit změnou R2 Ideální je ale použití bayesovské statistiky BIC

Na co pozor v logreg Pozor na prázdné buňky (empty cells) – nejprve např. CROSSTABS (některé procedury varují, např. PLUM)

Problém Směrodatná odchylka je přímo funkcí na střední hodnotě