Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Jiří Šafr jiri.safr(zavináč)seznam.cz

Podobné prezentace


Prezentace na téma: "Jiří Šafr jiri.safr(zavináč)seznam.cz"— Transkript prezentace:

1 Jiří Šafr jiri.safr(zavináč)seznam.cz
UK FHS Historická sociologie (LS ) Analýza kvantitativních dat III. Logistická regrese pro kategoriální závvislé proměnné Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace ,

2 Logistická regrese úvod

3 Logistická regrese (alternativa k lineární regresi, tam kde ji nemůžeme použít).
Od lineární regrese se liší v tom, že predikuje pravděpodobnost, zda se určitá událost stala či nikoliv (0/1) Nezávislé proměnné mohou být jak kategoriální - diskrétní (faktory) nebo číselné – spojité (prediktory). Výsledný model lze použít k budoucímu klasifikování (predikci). Lze jí zobecnit jako variantu zobecněného lineárního modelu (Generalised Linear Model)

4 Logistická regrese podle typu závislé proměnné
Binární: pouze dvě hodnoty (0/1), např. volil / nevolil Ordinální: tři a více hodnot ordinálně (hierarchicky) uspořádaných, např. míra souhlasu: „rozhodně ne – spíše ne – spíše ano – rozhodně ano“ Multinominální: více kategorií mezi nimiž je pouze odlišnost, např. náboženská orientace: „katolík – protestant – ateista – ostatní“

5 Poměr šancí - ODDS RATIO (OR)
OR ukazuje asociaci v kontingenčních tabulkách šance (O) = poměr pravděpodobnosti jedné možnosti p1 (událost nastala) ke druhé p2(událost nenastala) (šance nebo také riziko) OR = poměr dvou šancí (odds) OR = f11 f22 / f12 f21 OR = f11*f22 / f12*f21 =

6 Vlastnosti poměru šancí (OR)
OR - podíl šancí výskytu (rizika výskytu) pro dvě různé hodnoty dvou proměnných. OR: A k B a B k A jsou komplementární, vždy však s opačným směrem 1:3 =0,33 a 1/0,33 =3 OR je kladné číslo, kdy: >1 vyšší šance a <1 nižší šance, ale pozor rozpětí je nesymetrické: 0 až 1 a 1 až ∞ Proto se také používá přirozený logaritmus poměru šance LOR <∞;∞> OR není citlivé na marginální distribuce (změníme-li velikost n o konstantu, OR zůstávají stejné) Pomocí OR můžeme vyjádřit vztahy mezi kategoriemi v kontingenční tabulce (a to nejen ve čtyřpolní 2 x 2)

7 Pravděpodobnost, Šance, Logit a Poměr šancí
chlapec dívka celkem úspěch 73 15 88 neúspěch 23 11 34 96 26 122 ano ne a b c d Pravděpodobnost = relativní četnost p = y/n (po vynásobení 100 dostaneme %), např. podíl úspěšných chlapců je 73/96 =0,76. Podmíněná střední hodnota π Šance je podíl pravděpodobnosti, že Y = 1 a pravděpodobnosti, že Y ≠ 1 šance(Y = 1) = P(Y = 1) / [1 – P(Y = 1)] nebo C = p/(1-p) např. šance přijetí chlapců je 73/23=3,17 (přijetí dívek 15/11 =1,36) → odhad pravděpodobnosti přijetí na VŠ Šance ale má hodnoty od 0 do nekonečna proto ji zlogaritmujeme na Logit = přirozený logaritmus šance (poměr výskytu) Logit můžeme převést zpět na šanci pomocí exponenciální funkce šance(Y = 1) = exp[logit(Y)]

8 Logistická funkce, Logitová transformace
Logistická regresní funkce - regresní funkce s logitovou transformací π Zjišťujeme zda událost (jev) nastala nebo ne → zda nastala či nikoliv odhadujeme z dichotomické hodnoty závislé proměnné, Je-li predikovaná pravděpodobnost > 0,5 pak se událost stala, je-li < 0,5 pak se nestala, Musíme ale nejprve provést logitovou transformaci → regresní koeficienty mají jiný význam než v lineární regresi metrické proměnné Příklad takové funkce Regresní rovnice pro transformovanou šanci na logit je logit(Y) = α + β1X1 + … + βKXK Zdroj: Pecáková 2007: 88] a [Řeháková 2000]

9 Understanding-Probability.wmv

10 Rovnice LOGREG

11 Vícenásobný logistický regresní model
Logaritmus pravděpodobnostního poměru ln(L1/L0) je lineární funkcí nezávislých proměnných. Předpoklady o rozdělení nezávislých proměnných nejsou: mohou být kategoriální - diskrétní (faktory) nebo číselné – spojité (prediktory).

12 Logistický model Nevhodný vhodný Lze nastavit v LogReg

13 Interpretace regresních koeficientů
Máme možnost buď interpretovat regresní koeficient b, ten je ale vyjádřen v logaritmech, proto někdy je transformujeme zpět na šanci (exp(b)) Kladné hodnoty bi zvyšují pravděpodobnost L1 ; záporné snižují logistický koeficient βk lze interpretovat jako změnu logitu spojenou s jednotkovou změnou hodnoty nezávislé proměnné Xk za předpokladu, že hodnoty ostatních nezávislých proměnných se nezmění

14 Test významnosti regresních koeficientů
Ověřujeme hypotézu, že regresní koeficient v modelu se liší od nuly (stejně jako v OLS) Waldovo kritérium W = (bi / s(bi))2 (příslušný koeficient dělený vlastní směr odchylkou)2 Pokud je hodnota koeficientu b (a tedy i jeho směrodatná odch. vysoká) test není spolehlivý → použít raději model s a model bez této proměnné a modely porovnat.

15 Vhodnost modelu (Goodnes of fit ) a výběr modelu
Dva zahnízděné (nested) modely můžeme porovnat pomocí Chíkvadrátu: nízké hodnoty X2 ukazují na shodu (pozorovaných a očekávaných četností) Vhodnost modelu můžeme (podobně jako v OLS) posoudit změnou R2 Ideální je ale použití bayesovské statistiky BIC

16 Na co pozor v logreg Pozor na prázdné buňky (empty cells) – nejprve např. CROSSTABS (některé procedury varují, např. PLUM)

17 Problém Směrodatná odchylka je přímo funkcí na střední hodnotě


Stáhnout ppt "Jiří Šafr jiri.safr(zavináč)seznam.cz"

Podobné prezentace


Reklamy Google