Logistická regrese pro kategoriální závislé proměnné

Logistická regrese pro kategoriální závislé proměnné
UK FHS Historická sociologie, Řízení a supervize (LS 2014+) Analýza kvantitativních dat III. Logistická regrese pro kategoriální závislé proměnné Jiří Šafr FHS UK, SOÚ AV ČR, v.v.i. jiri.safr(zavináč)seznam.cz poslední aktualizace , ,

Logistická regrese úvod
Závislé–vysvětlované proměnné, které podléhají určitým „omezením“ rozsahu hodnot (např. proto, že jsou nominální) → „limited“ dependent variable

„Problém“: diskrétní hodnoty závislé proměnné
Lineární (LP) model pro dichotom. závislou proměnnou → problematické Lineárně regresní model pro kardinální proměnné (OLS) Logistický model (dichotom. závislá p.) zde dichotomie (0/1) např. „nadprůměrný výkon v testu“ (hiqual)

Proč nemůžeme použít lineární regresi (OLS) pro dichotomickou závislou proměnnou
Vlastně i můžeme, např. směr-znaménko koeficientů a výsledek testu H0 „nenulovosti“ koeficientu dává smysl. Ale: Chybová složka (nevysvětlený rozptyl závislé proměnné) je heteroskedastická (heteroskedasticita se vyskytne, pokud se rozptyl závislé proměnné liší v závislosti na hodnotách nezávislých proměnných) → porušena je tak základní podmínka OLS „chyba (e) není nezávislá na hodnotě X“. Hodnoty residua (chybové složky ϵ) nemají normální rozložení, protože P má jen dvě hodnoty. → porušení dalšího předpokladu OLS. Modelem predikované pravděpodobnosti (predicted probabilities) mohou dosahovat vyšší hodnoty než 1 nebo menší něž 0, což může být problém, zejména pokud je používáme v dalších analýzách (to lze ošetřit překódováním na max 0 nebo 1).

Nelineární model pro kategoriální závislé znaky
Pokud máme kategoriální závislou–vysvětlovanou proměnnou Y, tj. s „omezením“ rozsahu hodnot (limited dependent variable) musíme nejprve provést transformaci jejích hodnot – původně jako pravděpodobnost (p), tak aby model s vysvětlujícími proměnnými produkoval pouze hodnoty Y mezi 0 a 1. Využít můžeme logitovou nebo probitovou transformaci hodnoty Y.

Logistická regrese Logistická regrese (alternativa k lineární regresi, tam kde ji nemůžeme použít). Od lineární regrese se liší v tom, že predikuje pravděpodobnost, zda se určitá událost stala či nikoliv (0/1) → jednoduchý model pro binární závislou proměnnou. Nezávislé proměnné mohou být jak kategoriální - diskrétní (faktory) nebo číselné – spojité (prediktory). Výsledný model lze použít k budoucímu klasifikování (predikci). Lze jí zobecnit jako jednu variantu zobecněného lineárního modelu (Generalised Linear Model). Krom modelu pro binární závislou proměnnou, také multinominální model (více kategorií) a ordninální model.

Logistická regrese podle typu závislé proměnné
Binární: pouze dvě hodnoty (0/1), např. volil / nevolil Ordinální: tři a více hodnot ordinálně (hierarchicky) uspořádaných, (1 / 2 / 3 / 4) např. míra souhlasu: „rozhodně ne – spíše ne – spíše ano – rozhodně ano“ Multinominální: více kategorií mezi nimiž je pouze odlišnost, např. náboženská orientace: „katolík – protestant – ateista – ostatní“ (D / X / A)

Poměr šancí - ODDS RATIO (OR) (pravěpodobnostní poměr)
OR ukazuje asociaci v kontingenčních tabulkách šance (O) = poměr pravděpodobnosti jedné možnosti p1 (událost nastala) ke druhé p2(událost nenastala) (šance nebo také riziko) OR = poměr dvou šancí (odds) OR = f11 f22 / f12 f21 OR = f11*f22 / f12*f21 =

Vlastnosti poměru šancí (OR)
OR - podíl šancí výskytu (rizika výskytu) pro dvě různé hodnoty dvou proměnných. OR: A k B a B k A jsou komplementární, vždy však s opačným směrem 1:3 =0,33 a 1/0,33 =3 OR je kladné číslo, kdy: >1 vyšší šance a <1 nižší šance, ale pozor rozpětí je nesymetrické: 0 až 1 a 1 až ∞ Proto se také používá přirozený logaritmus poměru šance LOR <∞;∞> OR není citlivé na marginální distribuce (změníme-li velikost n o konstantu, OR zůstávají stejné) Pomocí OR můžeme vyjádřit vztahy mezi kategoriemi v kontingenční tabulce (a to nejen ve čtyřpolní 2 x 2)

Šance a pravděpodobnost → vlastnosti ODDS RATIO
Šance nabývá hodnoty 0 – nekonečno, kdy: 0 – 1 menší šance jevu A (oproti jevu B) >1 větší šance na jev A (oproti jevu B) 1 je stejný výskyt jevu A i B, tj. stejná šance obou konkurenčních možností, tj. nezávislost Šance jsou ale na rozdíl od pravděpodobnosti nesymetrické vzdálenost (0-1) není to samé co (1-∞) Šance jsou inverzní: Odds-Ratio p1↔p2: 2,25 Inverse p2↔p1: 0,44 Pravděpodobnost ODDS 0,0 0,00 0,1 0,11 0,2 0,25 0,3 0,42 0,4 0,67 0,5 1,00 0,6 1,50 0,7 2,33 0,8 4,00 0,9 9,00 1,0 ∞ Vztah pravděpodobnosti a šance (ODDS)

Pravděpodobnost, Šance, Logit a Poměr šancí
chlapec dívka celkem úspěch 73 15 88 neúspěch 23 11 34 96 26 122 ano ne a b c d Pravděpodobnost = relativní četnost p = y/n (po vynásobení 100 dostaneme %), např. podíl úspěšných chlapců je 73/96 =0,76. Podmíněná střední hodnota π Šance je podíl pravděpodobnosti, že Y = 1 a pravděpodobnosti, že Y ≠ 1 (neboli pravděpodobnostní poměr) šance(Y = 1) = P(Y = 1) / [1 – P(Y = 1)] nebo C = p/(1-p) např. šance přijetí chlapců je 73/23=3,17 (přijetí dívek 15/11 =1,36) → odhad pravděpodobnosti přijetí na VŠ Šance ale má hodnoty od 0 do nekonečna, což je značně nesymetrické, proto ji zlogaritmujeme na Logit = přirozený logaritmus šance (poměr výskytu) Logit můžeme převést zpět na šanci pomocí exponenciální funkce šance(Y = 1) = exp[logit(Y)]

Logistická funkce, Logitová transformace
Logistická regresní funkce - regresní funkce s logitovou transformací π Zjišťujeme zda událost (jev) nastala nebo ne → zda nastala či nikoliv odhadujeme z dichotomické hodnoty závislé proměnné, Je-li predikovaná pravděpodobnost > 0,5 pak se událost stala, je-li < 0,5 pak se nestala, Musíme ale nejprve provést logitovou transformaci → regresní koeficienty mají jiný význam než v lineární regresi metrické proměnné Příklad takové funkce Regresní rovnice pro transformovanou šanci na logit je logit(Y) = α + β1X1 + … + βKXK Zdroj: Pecáková 2007: 88] a [Řeháková 2000]

Rovnice LOGREG

Vícenásobný logistický regresní model
Logaritmus pravděpodobnostního poměru ln(L1/L0) je lineární funkcí nezávislých proměnných. Předpoklady o rozdělení nezávislých proměnných nejsou: mohou být kategoriální - diskrétní (faktory) nebo číselné – spojité (prediktory).

Logistický model – cut off
Nevhodný vhodný Nedostatečně diskriminuje Lze nastavit v LogReg pomocí „cut off“

Interpretace regresních koeficientů
Máme možnost buď interpretovat regresní koeficient b tj. logit, ten je ale vyjádřen v logaritmech, proto někdy je transformujeme zpět na šanci (exp(b)) Logit: Kladné hodnoty bi zvyšují pravděpodobnost jevu L1 ; záporné snižují Logistický koeficient (logit) βk lze interpretovat jako změnu logitu spojenou s jednotkovou změnou hodnoty nezávislé proměnné Xk za předpokladu, že hodnoty ostatních nezávislých proměnných se nezmění Ale pozor, u spojitých nezávislých proměnných záleží na jejich hodnotě (multiplikativní efekt).

Interpretace změny hodnot konstanty a směrnice v binárním modelu Model: Pr(y = 1|x) = F(α + βx)
Změna konstanty Změna směrnice Zdroj: [Long 1997: 63]

Problém 1: interpretace regresních koeficientů v logistické regresi (kardinální nezávislé proměnné)
Lineární model Jednotková změna závislé proměnné kdekoliv-v jakékoliv její hodnotě, vyvolá stejnou změnu v závislé proměnné. → aditivní efekt Nelineární model To ovšem neplatí v nelineárních (logitových, probitových modelech)! U nezávislých kardinálních-číselných proměnných záleží na hodnotě nezávislé proměnné (regionu hodnot, kde se pohybujeme). → multiplikativní efekt Zdroj: [Long, Freese 2014]

Log Likelihood odhadnutého modelu
Statistiku LL používáme v celkovém Likelihood Ratio Chi-Square testu (Likelihood Ratio (LR) Chi-Square), kterým ověřujeme, zda všechny prediktory – koeficienty v regresním modelu jsou současně nula (resp. alespoň jeden je nenulový) LR Chi-Square statistic: -2*( L(null model) – L(fitted model)) = L(null model) je z log likelihood z modelu s pouze závislou proměnnou (Iteration 0) and L(fitted model) je log likelihood z poslední iterace a také k testování zahnízděných (nested) modelů

Jak odhadnout parametry modelu
Jak odhadnout parametry modelu ? → Metoda maximální věrohodnosti (maximum likelihood ML) V lineárním modelu lze odhady parametrů vypočítat jednoduše metodou nejmenších čtverců (OLS). To ale neplatí v nelineárních modelech (obecně skupina zobecněných lineárních modelů). Výpočet odhadů regresních koeficientů je zde složitější. → získávají se většinou metodou maximální věrohodnosti (pravděpodobnosti) Maximum likelihood method

Metoda maximální věrohodnosti (maximum likelihood estimation ML / MLE)
Logitové modely odhadujeme pomocí metody maximální věrohodnosti (ML). ML odhady jsou hodnoty parametrů, které mají největší věrohodnost (tj. maximální pravděpodobnost) generování pozorovaného vzorku dat, jsou-li předpoklady modelu pravdivé. Abychom získali maximální odhady pravděpodobnosti, funkce pravděpodobnosti vypočítá, jak je pravděpodobné, že bychom pozorovali data, která jsme skutečně pozorovali, pokud by daná sada odhadů parametrů byla skutečnými parametry. Zdroj: [Long, Freese 2014: 84]

Metoda maximální věrohodnosti (maximum likelihood estimation ML / MLE)
Například v lineární regresi s jednou nezávislou proměnnou je třeba odhadnout: směrnici β a konstantu α (pro jednoduchost ignorujeme parametr σ2). Pro jakoukoli kombinaci možných hodnot α a β nám pravděpodobnostní funkce říká, jak je pravděpodobné, že bychom pozorovali ta data, která jsme pozorovali, pokud by modelem odhadnuté hodnoty parametrů byly skutečnými parametry v populaci. Pokud si představíme povrch, ve kterém rozsah možných hodnot α představuje jednu osu a rozsah β jinou osu, výsledný graf pravděpodobnostní funkce by vypadal jako kopec, kde ML odhady by byly hodnoty parametrů odpovídající vrcholu tohoto kopce. Rozptyl možných odhadů odpovídá zhruba tomu, jak rychle se mění sklon, v místě blízko vrcholu. Zdroj: [Long, Freese 2014: 84]

Metoda maximální věrohodnosti (maximum likelihood ML)
Věrohodnost je společná hustota pravděpodobnosti všech pozorovaných odpovědí yij, jako funkce parametrů modelu (α, β, σ2, případně ve víceúrovňových modelech i dalších parametrů). Princip spočívá v tom najít odhad parametrů (α, β, σ2), které maximalizují tuto pravděpodobnostní funkci, což povede k řešení, které se jeví jako "pravděpodobné", jak je to jen možné (→ maximum likelihood). ML odhady mají dobré vlastnosti, jsou: konzistentní: s tím, jak roste velikost výběru odhady se blíží skutečné hodnotě (proto čím více informací=dat máme, tím lepší je náš odhad) vydatné (efficient): ve velkých výběrech mají nejmenší možný výběrový rozptyl) asymptoticky normální (blíží se normálnímu rozložení) Zdroj: [Rabe-Hesketh, Skrondal 2008: 81]

Test statistické významnosti regresních koeficientů
Ověřujeme hypotézu, že regresní koeficient v modelu se liší od nuly (stejně jako v OLS) Waldovo testové kritérium W = (bi / s(bi))2 (příslušný koeficient dělený vlastní směrodatnou odchylkou)2 W má rozložení Chi2 (s df=1 pro více-kategoriální znaky k-1)). Ale pozor, pokud je hodnota koeficientu b (a tedy i jeho směrodatná odch.) vysoká, test není spolehlivý. → použít raději model „s“ a model „bez“ této proměnné a modely porovnat (LRtest). U malých výběrů, vzhledem k nejasnému chování ML odhadů z hlediska normality rozložení, je vhodné akceptovat jen nižší p-hodnoty (než konvenční např. 0,05).

Vhodnost modelu (Goodnes of fit ) a výběr modelu (míra těsnosti proložení dat modelem)
Dva zahnízděné (nested) modely můžeme porovnat pomocí Chíkvadrátu: nízké hodnoty χ2 ukazují na shodu (pozorovaných a očekávaných četností), resp. vysoké χ2→ špatné proložení modelu testu poměru věrohodností (Likelihood-Ratio test) Vhodnost modelu můžeme (podobně jako v OLS) věcně posoudit i změnou R2 Ideální je ale doplnit o použití bayesovské statistiky BIC (bayesovské informační kritérium)

Hosmer and Lemeshow Test
Step Chi-square df Sig. 1 13, ,092

Pseudo R2 V logistickém modelu nelze přímo spočítat velikost „vysvětleného rozptylu“ závislé proměnné, tj. nemáme ekvivalent R2 z lineárního OLS modelu Existují pokusy o náhradu různé pseudo R-squared Ale pozor na jejich interpretaci Možností je odhadnout lineární model (OLS) a použít R2

Na co pozor v logreg Pozor na „díry v datech“ tj. prázdné buňky (empty cells) – nejprve např. CROSSTABS (některé procedury varují, např. PLUM v SPSS) Celkový počet případů a odhadovaných parametrů (MLE je citlivější na velikost výběru než OLS; viz dále) Nelze porovnávat regresní koeficienty (logity) ze dvou nezahnízděných i zahnízděných modelů. Složitější interpretace koeficientů (viz dále)

Velikost výběrového souboru v logitovém modelu (MLE)
ML model má dobré vlastnosti (konzistence, vydatnost, asymptotická normalita), pokud se velikost výběru blíží nekonečnu. Otázkou je, jak se chovají odhady parametrů z malých výběrů. Je riskantní používat ML odhady pro n <100, výběry s n > 500 jsou ok. Záleží ale na modelu: čím více parametrů odhadujeme, tím větší výběr potřebujeme. Pravidlo palce: Minimálně 10 pozorování na 1 parametr, ale celkově min. n 100. Ale záleží na „kvalitě“ dat: kolinearita nezávislých proměnných, velmi nízká variance v závislé proměnné (skoro všichni „mají 1“) → větší výběr. Zdroj: [Long 1997; Long, Freese 2014: 85]

Problém 1: v logistické regresi
Interpretace odhadnutých parametrů Rozsah Odds ratio (podíl šancí) není symetrický (0-1;ale 1-∞). Efekty pro kardinální nezávislé proměnné jsou multiplikativní. Řešením může být prezentovat kromě koeficientů (logity či šance): Podíly odhadnuté modelem (predicted probabilities) Marginální efekty (marginal effects)

Interpretace a prezentace
Nejlepší postup a také nejpřímější pro čtenáře je při interpretaci výsledků logistické regrese spočítat a prezentovat modelem předpokládané pravděpodobnosti výskytu události (predicted probabilities) pro různé hodnoty nezávislých proměnných.

predicted probabilities
Zdroj: [Long 1997: 66-68]

Parciální změna vs. diskrétní změna v nelineárním modelu
Pokud máme numerickou nezávislou proměnnou X, pak změna v hodnotách X z „1 na 2“ neznamená ve změně pravděpodobnosti jevu Y to samé jako změna v X z „2 na 3“. Pokud se změna odehrává v oblasti, kde je křivka zhruba lineární, pak jsou si podobné. Zdroj: [Long 1997: 76]

Marginální efekty = parciální změna v pravděpodobnosti

Problém 2: v logisticé regresi
Směrodatná odchylka je přímo funkcí odvislé od střední hodnoty. Ta je ale v případě pravděpodobnosti konstantní. V logitových modelech je variance určena fixně jako π2/3.

Logistická regrese v SPSS
Problém je, že v licenci BASE chybí procedura LOGISTIC REGRESSION, ale je alespoň k dispozici výpočet ordinální regrese PLUM (ale pozor na kódování referenčních kategorií a odds ratio Exp(B) je třeba dopočítat z logitu, např. v Excelu. Máte-li Advanced licenci využijte zobecněný lineární model GENLIN, kde můžete spočítat predikovane hodnoty Y pro určité hodnoty X1, X2,... Xn včetně testu rozdílů mezi kategoriemi (Estimated marginals means). A umí i Odds Ratio (SOLUTION (EXPONENTIATED)).

SPSS: GENILN (Generalized Linear Models)
*Estimated marginals means - predikovane hodnoty Y pro urcite hodnoty X1, X2,.... * Generalized Linear Models. *Binomiccká regrese: DISTRIBUTION=BINOMIAL LINK=LOGIT *VS ditete2: model jen s vzdelanim rodicu. GENLIN D2VS (REFERENCE=FIRST) BY vzd3Rod (ORDER=ASCENDING) WITH vekX /MODEL vzd3Rod vekX INTERCEPT=YES DISTRIBUTION=BINOMIAL LINK=LOGIT /CRITERIA METHOD=FISHER(1) SCALE=1 COVB=MODEL MAXITERATIONS=100 MAXSTEPHALVING=5 PCONVERGE=1E-006(ABSOLUTE) SINGULAR=1E-012 ANALYSISTYPE=3(WALD) CILEVEL=95 CITYPE=WALD LIKELIHOOD=FULL /EMMEANS TABLES=vzd3Rod SCALE=ORIGINAL /MISSING CLASSMISSING=EXCLUDE /PRINT CPS DESCRIPTIVES MODELINFO FIT SUMMARY SOLUTION (EXPONENTIATED).

SPSS: GENILN (Generalized Linear Models), output výběr (1)

SPSS: GENILN (Generalized Linear Models), output výběr (2)
Estimated Marginal Means: vzd3Rod Rodiče resp.: Vzdělání (>Ot/Ma, 3k) → modelem odhadnuté (predikované) hodnoty pravděpodobností (*100 = %) vystudování vysoké školy pro potomky z rodin s různým stupněm vzdělání

Estimated Marginal Means:
vzd3Rod Rodiče resp.: Vzdělání (>Ot/Ma, 3k) x Pohlaví

Predikované hodnoty graficky v SPSS (1)

Predikované hodnoty graficky v SPSS (výsledný graf)

Reference Long, J. Scott Regression models for categorical and limited dependent variables. Thousand Oaks: Sage Publications. Long, J. S., Freese, J Regression models for categorical dependent variables using Stata. College Station, Texas: Stata Press. Meloun, Militský , Hill. Počítačová analýza vícerozměrných dat v příkladech. Rabe-Hesketh, S., A. Skrondal Multilevel and Longitudinal Modeling Using Stata, Second Edition. College Station, Texas: Stata Press.

Logistická regrese pro kategoriální závislé proměnné

Podobné prezentace

Prezentace na téma: "Logistická regrese pro kategoriální závislé proměnné"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

Logistická regrese pro kategoriální závislé proměnné

Podobné prezentace

Prezentace na téma: "Logistická regrese pro kategoriální závislé proměnné"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář