MODELY DISKRÉTNÍ VOLBY 3. cvičení
Osnova Podstata modelů diskrétní volby Modely binární volby Aplikace LPM Logitový Probitový Aplikace Ukázka – cílení marketingových kampaní
Podstata modelů diskrétní volby Vychází z principu regrese Používají se pro diskrétní endogenní proměnou Princip: Jinak se rozhoduji mezi nekonečně mnoha alternativami a mezi dvěma (několika) Vhodné pro marketingový výzkum a data mining apod.
Modely binární diskrétní volby(1) Y nabývá pouze dvou hodnot Značené: 0, 1 Na čem závisí, že zákazník zůstává u banky/operátora/pojišťovny nebo odchází. Na čem závisí, zda zákazník vlastní daný produkt? Na čem závisí to, že zákazník nesplatí úvěr? Na čem závisí to, že zákazník podvádí banku? ...
Modely binární diskrétní volby(2) Lineární pravděpodobnostní model Odhadnuté hodnoty udávají pravděpodobnost, že pro dané pozorování i bude Y rovno 1. Problémy: Náhodné složky vykazují heteroskedasticitu – nutno odhadovat MZNČ, MVNČ Pravděpodobnost leží mimo interval <0,1> Interpretace modelu - linearita
Logitový model diskrétní binární volby Využívá KDF logistického rozdělení Matematické hledisko pohledu – flexibilní a jednoduchá funkce Smysluplná interpretace Odhad pomocí MMV
Probitový model diskrétní binární volby Využívá KDF standardního normálního rozdělení Matematické hledisko pohledu – flexibilní a jednoduchá funkce Smysluplná interpretace Odhad pomocí MMV
Srovnání KDF normálního a logistického rozdělení
Vyhodnocení modelů LPM – Stejný princip jako pro KLRM Logit, probit Waldův chí-kvadrát test Score test Test věrohodnostním poměrem Modifikovaný R2
APLIKACE Společnosti Marketing Risk management Banky, úvěrové a finanční společnosti Telekomunikační společnosti Pojišťovny Retailové společnosti ... Marketing Odchod zákazníka Pořízení produktu – cross sell Risk management Nesplacení úvěru - Skóring Podvod
Marketingové kampaně Cílené marketingové kampaně jako součást podlinkové komunikace se zákazníkem (z ang. BTL) Firma oslovuje konkrétní skupinu zákazníků s konkrétní nabídkou (produkt, sleva...) pomocí různých komunikačních kanálů (dopis, email, sms, telefonát...) Problém Velké množství zákazníků Které zákazníky oslovit? Jaký produkt jim nabídnout? Pomocí jakého komunikačního kanálu? Velké společnosti s 100 tisicíci či miliony klientů – banky, pojistovny, telekomunikacni spolecnosti.
Marketingové kampaně Cíl: Vyšší odezva klientů na marketingové kampaně při stejných marketingových nákladech Snížení marketingových nákladů při stejné odezvě klientů Zvýšení zisků firmy Datové sklady – identifikace, unifikace klienta Informace z více primárních systémů – z poboček, call center, účetního systému, internetového bankovnictví. Modelování – pravděpodobnost nákupu produktu, očekávaný zisk z produktu Optimalizace – kterého klienta zařadit do které kampaně, aby byl max. očekávaný zisk Exekuce kampaní – vlastní obeslání, forma, sdělení...
Aplikace - zadání Klíčovými produkty banky jsou spotřebitelské úvěry, kreditní karty a spořicí účty. Úkol: zlepšit cílení marketingových kampaní, v současné době platí, že jsou klienti do kampaní vybíráni pomocí expertních pravidel. Součástí řešení je spočítání pravděpodobnosti, že si klient pořídí dané produkty a nastavení automatizace počítání modelů s měsíčními intervaly.
1. Krok – Příprava dat Co vše víme o klientech banky? Socio demo: Věk, Pohlaví, Místo bydliště, Zaměstnání, Vzdělání Behaviorální: Počet a typy produktů, doba využívání produktů, počet žádostí Transakční data: obrat na účtech, zůstatek, průměrné příjmy, Informace o kampaních, stížnostech klienta – komunikace klient - banka Odkud bereme údaje? Primární zdroje: pobočky, call-centrum, internetové bankovnictví, účetní software ... Co je klíčový krok v přípravě dat? Unifikace a identifikace klienta
1. Krok – Příprava dat Pro jednotlivá období byla vytvořena analytická tabulka Přidány odvozené (trendy, kategorie, průměry...) a transformované proměnné (kategorizace, logaritmická transformace Práce s chybějícími hodnotami, odlehlými pozorováními ... Počet klientů: cca 900 tis. (aktivní i neaktivní klienti) Počet vysvětlujících proměnných: 1100 Údaje o unifikovaném klientovi... Socio demo: Věk, Pohlaví, Místo bydliště, Zaměstnání... Behaviorální: Počet produktů, doba využívání produktů, počet žádostí Transakční data: obrat na účtech, zůstatek, průměrné příjmy, Informace o kampaních, stížnostech klienta – komunikace klient - banka Transformace – kategorizace, logaritmická transformace, práce s CHYBĚJÍCÍMI HODNOTAMI, ODLEHLÝMI POZOROVÁNÍMI Odvozené proměnné: trendy, kategorie, ... Vytvoření AT Sloučení AT za jednotlivá období – Schválně vynechána období např. 200905. dostatečné množství pozitivních případů, příliš velké množství na práci s daty, Stratifikované – všechny pozitivní případy + náhodný výběr stejného počtu negativních případů Spuštěna procedura logistické regrese – postupný výběr. Nastavení různé hladiny významnosti Kalibrace parametrů na celém modelu. Získané koeficienty.
2. Krok – Odhad modelu Princip práce s daty a odhad modelu pro spotřebitelské úvěry
2. Krok – Odhad modelu - Logit Výsledný model Proměnná Báze Parametr Poměr šancí P-hodnota KONSTANTA -0,653 <,0001 NEAKTIVNI_KARTA -0,920 0.331 REAG_KAMP_032 0,505 1.390 ZADOST_CREDIT 1,734 4.187 DPOSL_PRODUKT -0,033 0.957 MAX_UVER_RAMEC 0,000 1.000 PROFESE - Delnik Zdravotnik 0,234 0.762 0,0038 PROFESE - Duchodce -1,201 0.154 PROFESE - Invalida 0,158 0.621 0,4169 PROFESE - Manager 0,214 0.720 0,0801 PROFESE - Ostatni -0,223 0.433 0,2164 PROFESE - Podnikatel 0,333 0.810 0,0069 PROFESE - Prodavac -0,227 0.426 0,2356 PROFESE - Ridic 0,360 0.794 0,028 PROFESE - Rizikovi -0,028 0.478 0,9104 PROFESE - StatniZam 0,250 0.697 0,1637 PROFESE - Technik 0,041 0.592 0,7743 PROFESE - Urednik 0,077 0.627 0,5315 DISP_PROSTR < =0 >= 20000 -0,550 0.590 DISP_PROSTR 1 - 7999 0,642 1.820 DISP_PROSTR 8000 - 19999 > =20000 0,124 1.014 0,2897 Interpretace prametru: Znaménka – zvyšuje se, snižuje pravděpodobnost Poměr šancí – pro klienta, který žádal o úvěr, je 4,2 krát vyšší pravděpodobnost, že si vezme úvěr v daný měsíc, než u klienta, který o úvěr nežádal. Pro různé hladiny významnosti, Různý počet vysvětlujících proměnných Různá období... Modely byly porovnány na základě statistik – lift „navýšení“ Stabilita jednotlivých proměnných v modelu, Stabilita modelu jako celku Lift na 10% - 6,64, na 20% - 4,13
2. Krok – Odhad modelu Statistika „lift“ – vhodná pro nestatistické uživatele modelu Pro různé hladiny významnosti, Různý počet vysvětlujících proměnných Různá období... Modely byly porovnány na základě statistik – lift „navýšení“ Stabilita jednotlivých proměnných v modelu, Stabilita modelu jako celku Lift na 10% - 6,64, na 20% - 4,13
3. Krok - Implementace Převod pravděpodobnosti na obchodní skóre
Co je vlastně výsledkem modelu Výsledkem je „pravděpodobnost“ Výsledkem je skóre Přepočet pravděpodobnost-> skóre Obojí je ve campaign management system Model se automaticky přepočítává každý měsíc
Aplikace DM – Odchod klientů Cíl: předpovědět odchod zákazníků Náklady na získání nového klienta překračují náklady na udržení stávajícího klienta S předstihem předpovědět: Storno smlouvy, účtu, služby, … Pokles využívání služeb Vhodná kombinace s hodnotu zákazníka Odcházející ziskové klienty nebo klienty s vysokým potenciálem si udržet -> vynaložit prostředky Odcházející ztrátové klienty přenechat konkurenci agentů – konkurence nabídne vyšší provizi
Aplikace – Credit scoring / fraud detection Credit scoring – výpočet pravděpodobnosti neplacení Pro nové úvěry/tarifní zákazníky (schvalování) – máme data: ze žádosti, z registrů (credit bureau, SOLUS), z dalších zdrojů (demografické profily, výsledky cenzů atd. Pro stávající úvěry/zákazníky (řízení rizik - kapitálová přiměřenost – Basel II)
Aplikace – Fraud detection Fraud detection – výpočet pravděpodobnosti podvodů u pojistných událostí kreditních karet spotřebitelských úvěrů a jiných úvěrů „praní špinavých peněz“ billingové podvody
Zdroje Hušek R, Pelikán J,: APLIKOVANÁ EKONOMETRIE, teorie a praxe Hosmer D, Lemeshow S,: APPLIED LOGISTIC REGRESSION Fíglová Z,: ANALÝZA MODELOV DISKRÉTNEJ VOLBY A ICH APLIKÁCIA Eko-kom