Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Analýza kvantitativních dat III. Logistická regrese pro kategoriální závvislé proměnné Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace 26.4.

Podobné prezentace


Prezentace na téma: "Analýza kvantitativních dat III. Logistická regrese pro kategoriální závvislé proměnné Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace 26.4."— Transkript prezentace:

1 Analýza kvantitativních dat III. Logistická regrese pro kategoriální závvislé proměnné Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace , UK FHS Historická sociologie (LS )

2 Logistická regrese úvod

3 Logistická regrese (alternativa k lineární regresi, tam kde ji nemůžeme použít). Od lineární regrese se liší v tom, že predikuje pravděpodobnost, zda se určitá událost stala či nikoliv (0/1) Nezávislé proměnné mohou být jak kategoriální - diskrétní (faktory) nebo číselné – spojité (prediktory). Výsledný model lze použít k budoucímu klasifikování (predikci). Lze jí zobecnit jako variantu zobecněného lineárního modelu (Generalised Linear Model)

4 Logistická regrese podle typu závislé proměnné Binární: pouze dvě hodnoty (0/1), např. volil / nevolil Ordinální: tři a více hodnot ordinálně (hierarchicky) uspořádaných, např. míra souhlasu: „rozhodně ne – spíše ne – spíše ano – rozhodně ano“ Multinominální: více kategorií mezi nimiž je pouze odlišnost, např. náboženská orientace: „katolík – protestant – ateista – ostatní“

5 Poměr šancí - ODDS RATIO (OR) OR ukazuje asociaci v kontingenčních tabulkách šance (O) = poměr pravděpodobnosti jedné možnosti p1 (událost nastala) ke druhé p2(událost nenastala) (šance nebo také riziko) OR = poměr dvou šancí (odds) OR = f11 f22 / f12 f21 OR = f 11 *f 22 / f 12 *f 21 =

6 Vlastnosti poměru šancí (OR) OR - podíl šancí výskytu (rizika výskytu) pro dvě různé hodnoty dvou proměnných. OR: A k B a B k A jsou komplementární, vždy však s opačným směrem 1:3 =0,33 a 1/0,33 =3 OR je kladné číslo, kdy: >1 vyšší šance a <1 nižší šance, ale pozor rozpětí je nesymetrické: 0 až 1 a 1 až ∞ Proto se také používá přirozený logaritmus poměru šance LOR OR není citlivé na marginální distribuce (změníme-li velikost n o konstantu, OR zůstávají stejné) Pomocí OR můžeme vyjádřit vztahy mezi kategoriemi v kontingenční tabulce (a to nejen ve čtyřpolní 2 x 2)

7 Pravděpodobnost, Šance, Logit a Poměr šancí Pravděpodobnost = relativní četnost p = y/n (po vynásobení 100 dostaneme %), např. podíl úspěšných chlapců je 73/96 =0,76. Podmíněná střední hodnota π Šance je podíl pravděpodobnosti, že Y = 1 a pravděpodobnosti, že Y ≠ 1 šance(Y = 1) = P(Y = 1) / [1 – P(Y = 1)] nebo C = p/(1-p) např. šance přijetí chlapců je 73/23=3,17 (přijetí dívek 15/11 =1,36) → odhad pravděpodobnosti přijetí na VŠ Šance ale má hodnoty od 0 do nekonečna proto ji zlogaritmujeme na Logit = přirozený logaritmus šance (poměr výskytu) Logit můžeme převést zpět na šanci pomocí exponenciální funkce šance(Y = 1) = exp[logit(Y)] anone anoab necd chlapecdívkacelkem úspěch neúspěch celkem

8 Logistická funkce, Logitová transformace Zjišťujeme zda událost (jev) nastala nebo ne → zda nastala či nikoliv odhadujeme z dichotomické hodnoty závislé proměnné, Je-li predikovaná pravděpodobnost > 0,5 pak se událost stala, je-li < 0,5 pak se nestala, Musíme ale nejprve provést logitovou transformaci → regresní koeficienty mají jiný význam než v lineární regresi metrické proměnné Zdroj: Pecáková 2007: 88] a [Řeháková 2000] Regresní rovnice pro transformovanou šanci na logit je logit(Y) = α + β 1 X 1 + … + β K X K Logistická regresní funkce - regresní funkce s logitovou transformací π Příklad takové funkce

9 Understanding-Probability.wmv

10 Rovnice LOGREG

11 Vícenásobný logistický regresní model Logaritmus pravděpodobnostního poměru ln(L 1 /L 0 ) je lineární funkcí nezávislých proměnných. Předpoklady o rozdělení nezávislých proměnných nejsou: mohou být kategoriální - diskrétní (faktory) nebo číselné – spojité (prediktory).

12 Logistický model Nevhodnývhodný Lze nastavit v LogReg

13 Interpretace regresních koeficientů Máme možnost buď interpretovat regresní koeficient b, ten je ale vyjádřen v logaritmech, proto někdy je transformujeme zpět na šanci (exp(b)) Kladné hodnoty b i zvyšují pravděpodobnost L 1 ; záporné snižují logistický koeficient βk lze interpretovat jako změnu logitu spojenou s jednotkovou změnou hodnoty nezávislé proměnné Xk za předpokladu, že hodnoty ostatních nezávislých proměnných se nezmění

14 Test významnosti regresních koeficientů Ověřujeme hypotézu, že regresní koeficient v modelu se liší od nuly (stejně jako v OLS) Waldovo kritérium W = (b i / s(b i )) 2 (příslušný koeficient dělený vlastní směr odchylkou) 2 Pokud je hodnota koeficientu b (a tedy i jeho směrodatná odch. vysoká) test není spolehlivý → použít raději model s a model bez této proměnné a modely porovnat.

15 Vhodnost modelu (Goodnes of fit ) a výběr modelu Dva zahnízděné (nested) modely můžeme porovnat pomocí Chíkvadrátu: nízké hodnoty X 2 ukazují na shodu (pozorovaných a očekávaných četností) Vhodnost modelu můžeme (podobně jako v OLS) posoudit změnou R 2 Ideální je ale použití bayesovské statistiky BIC

16 Na co pozor v logreg Pozor na prázdné buňky (empty cells) – nejprve např. CROSSTABS (některé procedury varují, např. PLUM)

17 Problém Směrodatná odchylka je přímo funkcí na střední hodnotě


Stáhnout ppt "Analýza kvantitativních dat III. Logistická regrese pro kategoriální závvislé proměnné Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace 26.4."

Podobné prezentace


Reklamy Google