PSY252 Statistická analýza dat v psychologii II Seminář 5-6 Logistická regrese Logistic regression.

Slides:



Advertisements
Podobné prezentace
Sexuální zneužívání v České republice: Výsledky národního výzkumu
Advertisements

Název projektu: Učení pro život
Korelace a regrese Karel Zvára 1.
Cvičení 9 – Ekonomická funkce nelineární v parametrech :
kvantitativních znaků
SIMPLEXOVÝ ALGORITMUS Řešení v tabulkovém procesoru
Jiří Šafr jiri.safr(zavináč)seznam.cz
MODELY DISKRÉTNÍ VOLBY 3. cvičení
4EK211 Základy ekonometrie Logistická křivka Umělé proměnné Cvičení /
Lineární regresní analýza Úvod od problému
Statistika II Michal Jurajda.
Lineární algebra.
Příjemce Základní škola, Třebechovice pod Orebem, okres Hradec Králové Registrační číslo projektuCZ.1.07/1.1.05/ Název projektu Digitalizace výuky.
VY_32_INOVACE_INF_RO_12 Digitální učební materiál
Lineární rovnice Běloun 91/1 a
Regresní analýza a korelační analýza
1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec.
Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Ing. Pavel Najman. Obchodní akademie a Střední odborná škola logistická, Opava, příspěvková.
Čtení myšlenek Je to až neuvěřitelné, ale skutečně je to tak. Dokážu číst myšlenky.Pokud mne chceš vyzkoušet – prosím.
Násobení zlomků – teorie a cvičení VY_32_INOVACE_19
Tento Digitální učební materiál vznikl díky finanční podpoře EU- Operačního programu Vzdělávání pro konkurenceschopnost Není –li uvedeno jinak, je tento.
 př. 4 výsledek postup řešení Zjistěte, zda jsou vektory a, b, c lineárně závislé. a=(1;2;3), b=(3;0;1), c=(-1;4;5)
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.
Sexuální život u pacientů s mentálním postižením v ÚSP
kvantitativních znaků
Obecný lineární model Analýza kovariance Nelineární modely
Lineární rovnice – 1. část
Lineární rovnice – 3. část
Analýza knihovnických standardů za rok 2006 knihovny Jmk Provozní doba Nákup knihovního fondu Kč na 1 obyvatele Roční přírůstek Počet studijních míst Veřejně.
Název školyIntegrovaná střední škola technická, Vysoké Mýto, Mládežnická 380 Číslo a název projektuCZ.1.07/1.5.00/ Inovace vzdělávacích metod EU.
Lineární rovnice – 2. část
Harmonická analýza Součet periodických funkcí s periodami T, T/2, T/3,... je periodická funkce s periodu T má periodu T perioda základní frekvence vyšší.
Podnikové informační systémy C7 – Data Mining a získávání znalostí České vysoké učení technické v Praze Fakulta strojní ústav Řízení a ekonomiky podniku.
Náhodný jev A E na statistickém experimentu E - je určen vybranou množinou výsledků experimentu: výsledku experimentu lze přiřadit číslo, náhodnou proměnnou.
Řešení kubických rovnic
Lineární regrese.
Lineární lomená funkce
1 6 Predikce potřeby Servisní logistika prof. Ing. Václav Legát, DrSc. Technická fakulta ČZU v Praze Katedra jakosti a spolehlivosti strojů
POČET PRAVDĚPODOBNOSTI
Obecný lineární model Fitované hodnoty and regresní residuály
Lineární regrese.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Závislost dvou kvantitativních proměnných
Lineární regrese kalibrační přímky
Rozdělení diskrétních veličin. Příklady diskrétních náhodných veličin Pokus jev nastaljev nenastal pnS hod mincírublíc1/2počet hodůpočet rubů celkem narození.
PSY717 Statistická analýza dat 2010 První konzultace.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Lineární regrese FSS928.
Grafický zápis algoritmů (vývojové diagramy) Lineární rovnice Zobrazení 10 sudých čísel – CYKLUS Suma 10 čísel JK, 2015.
2. Vybrané základní pojmy matematické statistiky
Jak statistika dokazuje závislost
Motivační příklad – 1a Vliv rodičů a prostředí na vývoj mláďat Nejstarší mládě v každém hnízdě měřeno ve věku X dní Vysvětlující údaje: počet mláďat, stáří.
Úvod do praktické fyziky Seminář pro I.ročník F J. Englich, ZS 2003/04.
AKD 1 (7/5) Transformace – vytváření nových proměnných: COMPUTE → SUMA celkový počet knih Konstanta → Student FHS COUNT → knihomol (2 x III. Tercil)
Jiří Šafr jiri.safr(zavináč)seznam.cz
IV..
Opakování – přehled metod
Induktivní statistika - úvod
PSY117 Statistická analýza dat v psychologii Přednáška
Logistická regrese Peter Spáč
PSY117 Statistická analýza dat v psychologii Přednáška
Ekvivalentní úpravy rovnic
Proč statistika ? Dva důvody Popis Inference
PSY252 Statistická analýza dat v psychologii II Seminář 5-6
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
PSY252 Statistická analýza dat v psychologii II Seminář 9
Parciální korelace Regresní analýza
Marie Budíková, Štěpán Mikoláš Katedra aplikované matematiky
Lineární regrese.
Transkript prezentace:

PSY252 Statistická analýza dat v psychologii II Seminář 5-6 Logistická regrese Logistic regression

Předpovídáme pohlaví pachatele Víme, že pachatel nosí náušnici/e a napsal dopis se skórem emočních adjektiv 8. Víme, že...  náušnice nosí 24% mužů a 86% žen  na škále přítomnosti emočních adjektiv od 1 do 13 mají ženy průměr 9,1 a muži pouze 4,5. Jaká je pravděpodobnost, že pachatel je žena?

Logistická regrese  Rozšíření lineární regrese na dichotomické závislé není to lineární regrese, protože nejde o lineární vztah  Závislou kódujeme 1 (jev nastal) a 0 (jev nenastal)  Ideově je závislou proměnnou pravděpodobnost toho, že jev nastal(nastane)  Technicky je závislou proměnnou šance  Pomocí prediktorů predikujeme, jaká je šance, že jev nastane.

Technický základ logistické regrese 1  šance O Y=1 = P Y=1 /P Y≠1 = P Y=1 /(1-P Y=1 )  ln O Y=1 se jmenuje logit (P Y=1 )  2 ekvivalentní rovnice logistické regrese ln O Y=1 = b 0 + b 1 X 1 + b 2 X b m X m

lnO Y=žena = -3,80 +0,39emoce +2,15náušnice  Pro náušnice=1 a emoce=8... P=0,81 O=4,2  Kdyby neměl náušnici... P=0,33 O=0,50  Změna náušnice z 1 na 0 způsobila 8,5násobný pokles šancí.... e b

Proč tak složitě? Závislá jako pravděpodobnost má měřítko v rozsahu. Kombinace prediktorů má ale rozsah (−∞;∞). Proto změníme měřítko závislé 1.Místo P použijeme O s měřítkem <0; ∞) 2.Pomocí logaritmu změníme měřítko na (−∞;∞). Také lze říci, že jde o linearizaci vztahu.

Technický základ logistické regrese 2 Jak spočítáme regresní váhy, které vyústí v nejlepší predikci pravděpodobnosti Y=1?  nespočítáme, odhadneme (zapomeňme na nejmenší čtverce)  odhad metodou maximální věrohodnosti (maximum-likelihood estimation) Výpočetně složitý algoritmus Dochází k takovým váhám, s nimiž je podmíněná pravděpodobnost získání dat, která jsme získali, nejvyšší možná : P (data|b 0,b 1,..,b m ) = max likelihood = jiné slovo pro podmíněnou p-nost

Jak dobře regrese predikuje?  Likelihood je měřítkem zdařilosti regrese v logaritmované podobě: log-likelihood  LL sumíruje shodu mezi odhadem a daty maximem je 0, minimem je -∞ častěji se udává jako −2LL, tj. vynásobený −2

Predikuje regrese lépe než nic?  nic = základní model (baseline model) = predikujeme všem 0 nebo 1, podle toho, co z toho se vyskytuje častěji = P Y=1 je pro všechny lidi stejná  Potom můžeme srovnat model s prediktory s tímto základním modelem. rozdíl -2LL obou modelů má  2 rozložení s df=počet prediktorů  2 = −2LL náš model −2LL základní model df = m náš model − m základní model  Podobně můžeme srovnávat i modely s různým počtem prediktorů mezi sebou

Nedalo by se to trochu zjednodušit? -2LL lze převést na ukazatele podobné R 2  R L 2 Hosmera a Lemeshowa  R CS 2 Coxe a Snella  R N 2 Nagelkerkeho Nabývají hodnot od 0 do 1. Udávají jak moc díky prediktorům klesl -2LL

Praktické problémy  Regresní koeficienty se nevypočítávají, ale iteračně odhadují.  Iterace nemusí vždy proběhnout úspěšně nemusí konvergovat mohou se vyskytnout bláznivé hodnoty  Problematické výsledky naznačují nedostatky v datech při absenci některé z kombinace hodnot prediktorů a závislé při dokonalé predikci  LR je náročná na velikost vzorku