Logistická regrese pro kategoriální závislé proměnné

Slides:

Advertisements

Podobné prezentace

Jiří Šafr jiri.safr(zavináč)seznam.cz

Advertisements

Strategické otázky výzkumníka 1.Jaký typ výzkumu zvolit? 2.Na jakém vzorku bude výzkum probíhat? 3.Jaké výzkumné metody a techniky uplatnit?

Kapitola 1: Popisná statistika jednoho souboru2  Matematická statistika je věda, která se zabývá studiem dat vykazujících náhodná kolísání.  Je možno.

10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ.

Testy hypotéz - shrnutí Testy parametrické Testy neparametrické.

Základy zpracování geologických dat Rozdělení pravděpodobnosti R. Čopjaková.

Experimentální metody oboru – Pokročilá tenzometrie – Měření vnitřního pnutí Další využití tenzometrie Měření vnitřního pnutí © doc. Ing. Zdeněk Folta,

Význam diferenciálních rovnic převzato od Doc. Rapanta.

9. SEMINÁŘ INDUKTIVNÍ STATISTIKA 2. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ.

Induktivní statistika

Analýza variance (ANOVA).

Testování hypotéz Testování hypotéz o rozdílu průměrů

Historická sociologie, Řízení a supervize

OCEŇOVÁNÍ CENNÝCH PAPÍRŮ Přednáška č. 2

Interpolace funkčních závislostí

7. Statistické testování

„VĚDA JE, DÁVÁ SPRÁVNÉ ÚDAJE, NEKLESEJTE NA MYSLI, ONA VÁM TO VYČÍSLÍ“

Matematika 3 – Statistika Kapitola 4: Diskrétní náhodná veličina

Testování hypotéz vymezení základních pojmů

Lineární funkce - příklady

Řešení nerovnic Lineární nerovnice

Statistické metody a zpracování dat 1 (podzim 2016) Klára Čížková

Základní škola Děčín VI, Na Stráni 879/2 – příspěvková organizace

STATISTICKÉ METODY V GEOGRAFII

Testování hypotéz Testování hypotéz o rozdílu průměrů

Statistické pojmy. Statistické pojmy Statistika - vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter Pojem statistika slouží k.

„Svět se skládá z atomů“

Výběrové metody (Výběrová šetření)

Jedno-indexový model a určení podílů cenných papírů v portfoliu

Operační výzkum Lineární programování – cvičení

Základy zpracování geologických dat testování statistických hypotéz

Popisná /deskriptivní/ statistika

Párový neparametrický test

Poměr v základním tvaru.

Základy statistické indukce

2. seminární úkol - projekt

Základy zpracování geologických dat testování statistických hypotéz

Parametry polohy Modus Medián

SÁRA ŠPAČKOVÁ MARKÉTA KOČÍBOVÁ MARCELA CHROMČÁKOVÁ LUKÁŠ BARTOŠ B3E1

Míry asociace obecná definice – síla a směr vztahu

FSS MUNI, katedra SPSP Kvantitativní výzkum x118 Téma 11: Korelace

Kvadratické nerovnice

NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.

Řešení nerovnic Lineární nerovnice

Spojité VELIČINY Vyšetřování normality dat

PSY252 Statistická analýza dat v psychologii II

Rovnice základní pojmy.

STATISTIKA Exaktní věda Úkoly statistiky zjišťovat data

XII. Binomické rozložení

3. přednáška Laplaceova transformace

Základní statistické pojmy

Úvod do praktické fyziky

Teorie chyb a vyrovnávací počet 1

Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.

SEM – speciální přístupy

TŘÍDĚNÍ DAT je základní způsob zpracování dat.

Lineární regrese.

Poměr v základním tvaru.

Běžná pravděpodobnostní rozdělení

Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.

Teorie chyb a vyrovnávací počet 1

Náhodný jev, náhodná proměnná

Jiří Šafr jiri.safr(zavináč)seznam.cz

Centrální limitní věta

Lineární funkce a její vlastnosti

T - testy Párový t - test Existuje podezření, že u daného typu auta se přední pneumatiky nesjíždějí stejně. H0: střední hodnota sjetí vpravo (m1) = střední.

Více náhodných veličin

Grafy kvadratických funkcí

Seminář o stavebním spoření

Teorie chyb a vyrovnávací počet 2

Transkript prezentace:

Logistická regrese pro kategoriální závislé proměnné UK FHS Historická sociologie, Řízení a supervize (LS 2014+) Analýza kvantitativních dat III. Logistická regrese pro kategoriální závislé proměnné Jiří Šafr FHS UK, SOÚ AV ČR, v.v.i. jiri.safr(zavináč)seznam.cz poslední aktualizace 14.6. 2017, 26.5. 2016, 13.5. 2014

Logistická regrese úvod Závislé–vysvětlované proměnné, které podléhají určitým „omezením“ rozsahu hodnot (např. proto, že jsou nominální) → „limited“ dependent variable

„Problém“: diskrétní hodnoty závislé proměnné Lineární (LP) model pro dichotom. závislou proměnnou → problematické Lineárně regresní model pro kardinální proměnné (OLS) Logistický model (dichotom. závislá p.) zde dichotomie (0/1) např. „nadprůměrný výkon v testu“ (hiqual) http://www.ats.ucla.edu/stat/stata/webbooks/logistic/chapter1/statalog1.htm http://www.ats.ucla.edu/stat/stata/faq/scatter.htm

Proč nemůžeme použít lineární regresi (OLS) pro dichotomickou závislou proměnnou Vlastně i můžeme, např. směr-znaménko koeficientů a výsledek testu H0 „nenulovosti“ koeficientu dává smysl. Ale: Chybová složka (nevysvětlený rozptyl závislé proměnné) je heteroskedastická (heteroskedasticita se vyskytne, pokud se rozptyl závislé proměnné liší v závislosti na hodnotách nezávislých proměnných) → porušena je tak základní podmínka OLS „chyba (e) není nezávislá na hodnotě X“. Hodnoty residua (chybové složky ϵ) nemají normální rozložení, protože P má jen dvě hodnoty. → porušení dalšího předpokladu OLS. Modelem predikované pravděpodobnosti (predicted probabilities) mohou dosahovat vyšší hodnoty než 1 nebo menší něž 0, což může být problém, zejména pokud je používáme v dalších analýzách (to lze ošetřit překódováním na max 0 nebo 1).

Nelineární model pro kategoriální závislé znaky Pokud máme kategoriální závislou–vysvětlovanou proměnnou Y, tj. s „omezením“ rozsahu hodnot (limited dependent variable) musíme nejprve provést transformaci jejích hodnot – původně jako pravděpodobnost (p), tak aby model s vysvětlujícími proměnnými produkoval pouze hodnoty Y mezi 0 a 1. Využít můžeme logitovou nebo probitovou transformaci hodnoty Y.

Logistická regrese Logistická regrese (alternativa k lineární regresi, tam kde ji nemůžeme použít). Od lineární regrese se liší v tom, že predikuje pravděpodobnost, zda se určitá událost stala či nikoliv (0/1) → jednoduchý model pro binární závislou proměnnou. Nezávislé proměnné mohou být jak kategoriální - diskrétní (faktory) nebo číselné – spojité (prediktory). Výsledný model lze použít k budoucímu klasifikování (predikci). Lze jí zobecnit jako jednu variantu zobecněného lineárního modelu (Generalised Linear Model). Krom modelu pro binární závislou proměnnou, také multinominální model (více kategorií) a ordninální model.

Logistická regrese podle typu závislé proměnné Binární: pouze dvě hodnoty (0/1), např. volil / nevolil Ordinální: tři a více hodnot ordinálně (hierarchicky) uspořádaných, (1 / 2 / 3 / 4) např. míra souhlasu: „rozhodně ne – spíše ne – spíše ano – rozhodně ano“ Multinominální: více kategorií mezi nimiž je pouze odlišnost, např. náboženská orientace: „katolík – protestant – ateista – ostatní“ (D / X / A)

Poměr šancí - ODDS RATIO (OR) (pravěpodobnostní poměr) OR ukazuje asociaci v kontingenčních tabulkách šance (O) = poměr pravděpodobnosti jedné možnosti p1 (událost nastala) ke druhé p2(událost nenastala) (šance nebo také riziko) OR = poměr dvou šancí (odds) OR = f11 f22 / f12 f21 OR = f11*f22 / f12*f21 =

Vlastnosti poměru šancí (OR) OR - podíl šancí výskytu (rizika výskytu) pro dvě různé hodnoty dvou proměnných. OR: A k B a B k A jsou komplementární, vždy však s opačným směrem 1:3 =0,33 a 1/0,33 =3 OR je kladné číslo, kdy: >1 vyšší šance a <1 nižší šance, ale pozor rozpětí je nesymetrické: 0 až 1 a 1 až ∞ Proto se také používá přirozený logaritmus poměru šance LOR <∞;∞> OR není citlivé na marginální distribuce (změníme-li velikost n o konstantu, OR zůstávají stejné) Pomocí OR můžeme vyjádřit vztahy mezi kategoriemi v kontingenční tabulce (a to nejen ve čtyřpolní 2 x 2)

Šance a pravděpodobnost → vlastnosti ODDS RATIO Šance nabývá hodnoty 0 – nekonečno, kdy: 0 – 1 menší šance jevu A (oproti jevu B) >1 větší šance na jev A (oproti jevu B) 1 je stejný výskyt jevu A i B, tj. stejná šance obou konkurenčních možností, tj. nezávislost Šance jsou ale na rozdíl od pravděpodobnosti nesymetrické vzdálenost (0-1) není to samé co (1-∞) Šance jsou inverzní: Odds-Ratio p1↔p2: 2,25 Inverse p2↔p1: 0,44 Pravděpodobnost ODDS 0,0 0,00 0,1 0,11 0,2 0,25 0,3 0,42 0,4 0,67 0,5 1,00 0,6 1,50 0,7 2,33 0,8 4,00 0,9 9,00 1,0 ∞ Vztah pravděpodobnosti a šance (ODDS)

Pravděpodobnost, Šance, Logit a Poměr šancí chlapec dívka celkem úspěch 73 15 88 neúspěch 23 11 34 96 26 122 ano ne a b c d Pravděpodobnost = relativní četnost p = y/n (po vynásobení 100 dostaneme %), např. podíl úspěšných chlapců je 73/96 =0,76. Podmíněná střední hodnota π Šance je podíl pravděpodobnosti, že Y = 1 a pravděpodobnosti, že Y ≠ 1 (neboli pravděpodobnostní poměr) šance(Y = 1) = P(Y = 1) / [1 – P(Y = 1)] nebo C = p/(1-p) např. šance přijetí chlapců je 73/23=3,17 (přijetí dívek 15/11 =1,36) → odhad pravděpodobnosti přijetí na VŠ Šance ale má hodnoty od 0 do nekonečna, což je značně nesymetrické, proto ji zlogaritmujeme na Logit = přirozený logaritmus šance (poměr výskytu) Logit můžeme převést zpět na šanci pomocí exponenciální funkce šance(Y = 1) = exp[logit(Y)]

Logistická funkce, Logitová transformace Logistická regresní funkce - regresní funkce s logitovou transformací π Zjišťujeme zda událost (jev) nastala nebo ne → zda nastala či nikoliv odhadujeme z dichotomické hodnoty závislé proměnné, Je-li predikovaná pravděpodobnost > 0,5 pak se událost stala, je-li < 0,5 pak se nestala, Musíme ale nejprve provést logitovou transformaci → regresní koeficienty mají jiný význam než v lineární regresi metrické proměnné Příklad takové funkce Regresní rovnice pro transformovanou šanci na logit je logit(Y) = α + β1X1 + … + βKXK Zdroj: Pecáková 2007: 88] a [Řeháková 2000]

Rovnice LOGREG

Vícenásobný logistický regresní model Logaritmus pravděpodobnostního poměru ln(L1/L0) je lineární funkcí nezávislých proměnných. Předpoklady o rozdělení nezávislých proměnných nejsou: mohou být kategoriální - diskrétní (faktory) nebo číselné – spojité (prediktory).

Logistický model – cut off Nevhodný vhodný Nedostatečně diskriminuje Lze nastavit v LogReg pomocí „cut off“

Interpretace regresních koeficientů Máme možnost buď interpretovat regresní koeficient b tj. logit, ten je ale vyjádřen v logaritmech, proto někdy je transformujeme zpět na šanci (exp(b)) Logit: Kladné hodnoty bi zvyšují pravděpodobnost jevu L1 ; záporné snižují Logistický koeficient (logit) βk lze interpretovat jako změnu logitu spojenou s jednotkovou změnou hodnoty nezávislé proměnné Xk za předpokladu, že hodnoty ostatních nezávislých proměnných se nezmění Ale pozor, u spojitých nezávislých proměnných záleží na jejich hodnotě (multiplikativní efekt).

Interpretace změny hodnot konstanty a směrnice v binárním modelu Model: Pr(y = 1|x) = F(α + βx) Změna konstanty Změna směrnice Zdroj: [Long 1997: 63]

Problém 1: interpretace regresních koeficientů v logistické regresi (kardinální nezávislé proměnné) Lineární model Jednotková změna závislé proměnné kdekoliv-v jakékoliv její hodnotě, vyvolá stejnou změnu v závislé proměnné. → aditivní efekt Nelineární model To ovšem neplatí v nelineárních (logitových, probitových modelech)! U nezávislých kardinálních-číselných proměnných záleží na hodnotě nezávislé proměnné (regionu hodnot, kde se pohybujeme). → multiplikativní efekt Zdroj: [Long, Freese 2014]

Log Likelihood odhadnutého modelu Statistiku LL používáme v celkovém Likelihood Ratio Chi-Square testu (Likelihood Ratio (LR) Chi-Square), kterým ověřujeme, zda všechny prediktory – koeficienty v regresním modelu jsou současně nula (resp. alespoň jeden je nenulový) LR Chi-Square statistic: -2*( L(null model) – L(fitted model)) = L(null model) je z log likelihood z modelu s pouze závislou proměnnou (Iteration 0) and L(fitted model) je log likelihood z poslední iterace a také k testování zahnízděných (nested) modelů

Jak odhadnout parametry modelu Jak odhadnout parametry modelu ? → Metoda maximální věrohodnosti (maximum likelihood ML) V lineárním modelu lze odhady parametrů vypočítat jednoduše metodou nejmenších čtverců (OLS). To ale neplatí v nelineárních modelech (obecně skupina zobecněných lineárních modelů). Výpočet odhadů regresních koeficientů je zde složitější. → získávají se většinou metodou maximální věrohodnosti (pravděpodobnosti) Maximum likelihood method

Metoda maximální věrohodnosti (maximum likelihood estimation ML / MLE) Logitové modely odhadujeme pomocí metody maximální věrohodnosti (ML). ML odhady jsou hodnoty parametrů, které mají největší věrohodnost (tj. maximální pravděpodobnost) generování pozorovaného vzorku dat, jsou-li předpoklady modelu pravdivé. Abychom získali maximální odhady pravděpodobnosti, funkce pravděpodobnosti vypočítá, jak je pravděpodobné, že bychom pozorovali data, která jsme skutečně pozorovali, pokud by daná sada odhadů parametrů byla skutečnými parametry. Zdroj: [Long, Freese 2014: 84]

Metoda maximální věrohodnosti (maximum likelihood estimation ML / MLE) Například v lineární regresi s jednou nezávislou proměnnou je třeba odhadnout: směrnici β a konstantu α (pro jednoduchost ignorujeme parametr σ2). Pro jakoukoli kombinaci možných hodnot α a β nám pravděpodobnostní funkce říká, jak je pravděpodobné, že bychom pozorovali ta data, která jsme pozorovali, pokud by modelem odhadnuté hodnoty parametrů byly skutečnými parametry v populaci. Pokud si představíme povrch, ve kterém rozsah možných hodnot α představuje jednu osu a rozsah β jinou osu, výsledný graf pravděpodobnostní funkce by vypadal jako kopec, kde ML odhady by byly hodnoty parametrů odpovídající vrcholu tohoto kopce. Rozptyl možných odhadů odpovídá zhruba tomu, jak rychle se mění sklon, v místě blízko vrcholu. Zdroj: [Long, Freese 2014: 84]

Metoda maximální věrohodnosti (maximum likelihood ML) Věrohodnost je společná hustota pravděpodobnosti všech pozorovaných odpovědí yij, jako funkce parametrů modelu (α, β, σ2, případně ve víceúrovňových modelech i dalších parametrů). Princip spočívá v tom najít odhad parametrů (α, β, σ2), které maximalizují tuto pravděpodobnostní funkci, což povede k řešení, které se jeví jako "pravděpodobné", jak je to jen možné (→ maximum likelihood). ML odhady mají dobré vlastnosti, jsou: konzistentní: s tím, jak roste velikost výběru odhady se blíží skutečné hodnotě (proto čím více informací=dat máme, tím lepší je náš odhad) vydatné (efficient): ve velkých výběrech mají nejmenší možný výběrový rozptyl) asymptoticky normální (blíží se normálnímu rozložení) Zdroj: [Rabe-Hesketh, Skrondal 2008: 81]

Test statistické významnosti regresních koeficientů Ověřujeme hypotézu, že regresní koeficient v modelu se liší od nuly (stejně jako v OLS) Waldovo testové kritérium W = (bi / s(bi))2 (příslušný koeficient dělený vlastní směrodatnou odchylkou)2 W má rozložení Chi2 (s df=1 pro více-kategoriální znaky k-1)). Ale pozor, pokud je hodnota koeficientu b (a tedy i jeho směrodatná odch.) vysoká, test není spolehlivý. → použít raději model „s“ a model „bez“ této proměnné a modely porovnat (LRtest). U malých výběrů, vzhledem k nejasnému chování ML odhadů z hlediska normality rozložení, je vhodné akceptovat jen nižší p-hodnoty (než konvenční např. 0,05).

Vhodnost modelu (Goodnes of fit ) a výběr modelu (míra těsnosti proložení dat modelem) Dva zahnízděné (nested) modely můžeme porovnat pomocí Chíkvadrátu: nízké hodnoty χ2 ukazují na shodu (pozorovaných a očekávaných četností), resp. vysoké χ2→ špatné proložení modelu testu poměru věrohodností (Likelihood-Ratio test) Vhodnost modelu můžeme (podobně jako v OLS) věcně posoudit i změnou R2 Ideální je ale doplnit o použití bayesovské statistiky BIC (bayesovské informační kritérium)

Hosmer and Lemeshow Test Step Chi-square df Sig. 1 13,617 8 ,092

Pseudo R2 V logistickém modelu nelze přímo spočítat velikost „vysvětleného rozptylu“ závislé proměnné, tj. nemáme ekvivalent R2 z lineárního OLS modelu Existují pokusy o náhradu různé pseudo R-squared Ale pozor na jejich interpretaci Možností je odhadnout lineární model (OLS) a použít R2

Na co pozor v logreg Pozor na „díry v datech“ tj. prázdné buňky (empty cells) – nejprve např. CROSSTABS (některé procedury varují, např. PLUM v SPSS) Celkový počet případů a odhadovaných parametrů (MLE je citlivější na velikost výběru než OLS; viz dále) Nelze porovnávat regresní koeficienty (logity) ze dvou nezahnízděných i zahnízděných modelů. Složitější interpretace koeficientů (viz dále)

Velikost výběrového souboru v logitovém modelu (MLE) ML model má dobré vlastnosti (konzistence, vydatnost, asymptotická normalita), pokud se velikost výběru blíží nekonečnu. Otázkou je, jak se chovají odhady parametrů z malých výběrů. Je riskantní používat ML odhady pro n <100, výběry s n > 500 jsou ok. Záleží ale na modelu: čím více parametrů odhadujeme, tím větší výběr potřebujeme. Pravidlo palce: Minimálně 10 pozorování na 1 parametr, ale celkově min. n 100. Ale záleží na „kvalitě“ dat: kolinearita nezávislých proměnných, velmi nízká variance v závislé proměnné (skoro všichni „mají 1“) → větší výběr. Zdroj: [Long 1997; Long, Freese 2014: 85]

Problém 1: v logistické regresi Interpretace odhadnutých parametrů Rozsah Odds ratio (podíl šancí) není symetrický (0-1;ale 1-∞). Efekty pro kardinální nezávislé proměnné jsou multiplikativní. Řešením může být prezentovat kromě koeficientů (logity či šance): Podíly odhadnuté modelem (predicted probabilities) Marginální efekty (marginal effects)

Interpretace a prezentace Nejlepší postup a také nejpřímější pro čtenáře je při interpretaci výsledků logistické regrese spočítat a prezentovat modelem předpokládané pravděpodobnosti výskytu události (predicted probabilities) pro různé hodnoty nezávislých proměnných.

predicted probabilities Zdroj: [Long 1997: 66-68]

Parciální změna vs. diskrétní změna v nelineárním modelu Pokud máme numerickou nezávislou proměnnou X, pak změna v hodnotách X z „1 na 2“ neznamená ve změně pravděpodobnosti jevu Y to samé jako změna v X z „2 na 3“. Pokud se změna odehrává v oblasti, kde je křivka zhruba lineární, pak jsou si podobné. Zdroj: [Long 1997: 76]

Marginální efekty = parciální změna v pravděpodobnosti

Problém 2: v logisticé regresi Směrodatná odchylka je přímo funkcí odvislé od střední hodnoty. Ta je ale v případě pravděpodobnosti konstantní. V logitových modelech je variance určena fixně jako π2/3.

Logistická regrese v SPSS Problém je, že v licenci BASE chybí procedura LOGISTIC REGRESSION, ale je alespoň k dispozici výpočet ordinální regrese PLUM (ale pozor na kódování referenčních kategorií a odds ratio Exp(B) je třeba dopočítat z logitu, např. v Excelu. Máte-li Advanced licenci využijte zobecněný lineární model GENLIN, kde můžete spočítat predikovane hodnoty Y pro určité hodnoty X1, X2,... Xn včetně testu rozdílů mezi kategoriemi (Estimated marginals means). A umí i Odds Ratio (SOLUTION (EXPONENTIATED)).

SPSS: GENILN (Generalized Linear Models) *Estimated marginals means - predikovane hodnoty Y pro urcite hodnoty X1, X2,.... * Generalized Linear Models. *Binomiccká regrese: DISTRIBUTION=BINOMIAL LINK=LOGIT *VS ditete2: model jen s vzdelanim rodicu. GENLIN D2VS (REFERENCE=FIRST) BY vzd3Rod (ORDER=ASCENDING) WITH vekX /MODEL vzd3Rod vekX INTERCEPT=YES DISTRIBUTION=BINOMIAL LINK=LOGIT /CRITERIA METHOD=FISHER(1) SCALE=1 COVB=MODEL MAXITERATIONS=100 MAXSTEPHALVING=5 PCONVERGE=1E-006(ABSOLUTE) SINGULAR=1E-012 ANALYSISTYPE=3(WALD) CILEVEL=95 CITYPE=WALD LIKELIHOOD=FULL /EMMEANS TABLES=vzd3Rod SCALE=ORIGINAL /MISSING CLASSMISSING=EXCLUDE /PRINT CPS DESCRIPTIVES MODELINFO FIT SUMMARY SOLUTION (EXPONENTIATED).

SPSS: GENILN (Generalized Linear Models), output výběr (1)

SPSS: GENILN (Generalized Linear Models), output výběr (2) Estimated Marginal Means: vzd3Rod Rodiče resp.: Vzdělání (>Ot/Ma, 3k) → modelem odhadnuté (predikované) hodnoty pravděpodobností (*100 = %) vystudování vysoké školy pro potomky z rodin s různým stupněm vzdělání

Estimated Marginal Means: vzd3Rod Rodiče resp.: Vzdělání (>Ot/Ma, 3k) x Pohlaví

Predikované hodnoty graficky v SPSS (1)

Predikované hodnoty graficky v SPSS (2)

Predikované hodnoty graficky v SPSS (3)

Predikované hodnoty graficky v SPSS (výsledný graf)

Reference Long, J. Scott. 1997. Regression models for categorical and limited dependent variables. Thousand Oaks: Sage Publications. Long, J. S., Freese, J. 2014. Regression models for categorical dependent variables using Stata. College Station, Texas: Stata Press. Meloun, Militský , Hill. Počítačová analýza vícerozměrných dat v příkladech. Rabe-Hesketh, S., A. Skrondal. 2008. Multilevel and Longitudinal Modeling Using Stata, Second Edition. College Station, Texas: Stata Press.