Modelování odezvy zákazníků v systému SAS Enterprise Miner™ Ukázková úloha pro předmět Získávání znalostí z databází doc. Ing. Jaroslav Zendulka, CSc. FIT VUT v Brně
Modelování odezvy zákazníků 2 Obsah Definice problému Postup –Definice zdroje dat a prozkoumání dat –Příprava dat –Vytvoření regresního modelu –Vytvoření rozhodovacího stromu –Dokumentace –Aplikace modelu
Modelování odezvy zákazníků 3 Definice problému (1) Předpokládejme, že pracujeme pro zásilkovou firmu, která měsíčně rozesílá katalog zařízení pro domácnost a domácích potřeb. Jako součást nadcházející prodejní kampaně chce distribuovat speciální katalog věnovaný kvalitnímu stolování, který zahrnuje vybavení kuchyní, nádobí a příbory. Je ale příliš drahé rozeslat katalog všem zákazníkům. Proto je ho potřeba směrovat těm, kteří některé z nabízeného zboží s velkou pravděpodobností zakoupí. Dosáhneme toho tak, že nejprve vytvoříme model tendence (k nákupu) a na jeho základě sestavíme seznam takových zákazníků. (převzato z Getting Started with SAS Enterprise Miner™)
Modelování odezvy zákazníků 4 Definice problému (2) Naštěstí máme rozsáhlý soubor záznamů nákupů zákazníků. Data zahrnují proměnné, které indikují, zda zákazníci zakoupili během posledních dvou let vybavení kuchyní, nádobí nebo příbory. Tato historie nákupů byla použita k vytvoření datového souboru (tabulky) CUSTDET1 s následujícími 49 proměnnými (sloupci):
Modelování odezvy zákazníků 5 Definice problému (3) Purchase, Dollars Spent, Yearly Income. Home Value, Order Frequency, Recency, Married, Name Prefix, Age, Sex, Telemarket Ind., Rents Apartment, Occupied <1 Year, Domestic Product, Apparel, Purchase, Leisure Product, Luxury Items, Kitchen Product, Dishes Purchase, Flatware Purchase, Total Dining (kitch+dish+flat), Promo: 1-7 Months, Promo: 8-13 Months, $ Value per Mailing, Country Code, Total Returns, Mens Apparel, Home Furniture, Lamps Purchase, Linens Purchase, Blankets Purchase, Towels Purchase, Outdoor Product, Coats Purchase, Ladies Coats, Ladies Apparel, His/Her Apparel, Jewelry Purchase, Date 1st Order, Telemarket Order, Account Number, State Code, Race, Heating Type, Number of Cars, Number of Kids, Travel Time, Education Level, Job Category
Modelování odezvy zákazníků 6 Definice problému (4) Předpokládejme, že byla vytvořena proměnná označená Total Dining (kitch+dish+flat), která obsahuje součet hodnot proměnných Kitchen Product, Dishes Purchase a Flatware Purchase a udává tedy, za kolik zákazník nakoupil dané druhy zboží. Tato proměnná bude základem modelu, který vytvoříme, protože indikuje zájem o produkty pro stolování.
Modelování odezvy zákazníků 7 Definice zdroje dat (1) 1.Vytvoření projektu 2.Vložení uzlu Input Data Source
Modelování odezvy zákazníků 8 Definice zdroje dat (2)
Modelování odezvy zákazníků 9 Pochopení charakteru dat (1) 1.Vložení uzlu Insight
Modelování odezvy zákazníků 10 Pochopení charakteru dat (2) 2.Spuštění analýzy a studium charakteristik
Modelování odezvy zákazníků 11 Pochopení charakteru dat (3)
Modelování odezvy zákazníků 12 Transformace (1) 1.Vložení uzlu Transform Variables
Modelování odezvy zákazníků 13 Transformace (2) 1.Vytvoření nové proměnné (DINEBIN)
Modelování odezvy zákazníků 14 Modifikace atributů (1) 1.Vložení uzlu Data Set Attributes
Modelování odezvy zákazníků 15 Modifikace atributů (2) 2.Definování DINEBIN jako cíle 3.Vyřazení zbytečných vstupů (Kitchen Product, Dishes Purchase, Flatware Purchase) 4.Nastavení rozměru DINEBIN na ‘binary’ 5.Nastavení pořadí hodnot pro cíl Pozn: Attributy lze modifikovat i přímo v uzlu Input Data Source
Modelování odezvy zákazníků 16 Modifikace atributů (3)
Modelování odezvy zákazníků 17 Modifikace atributů (4)
Modelování odezvy zákazníků 18 Definice profilu cíle (1) 1.Model nákladů Důležitý pro cenové ohodnocení –přínos správné vs. ztráta nesprávné predikce Předpokládejme, že náklady na rozeslání katalogu jsou $10 a průměrná tržba $90/katalog => zisk při správné predikci: 90-10=$80 ztráta pří nesprávné predikci: $10
Modelování odezvy zákazníků 19 Definice profilu cíle(2) Nastavení strategie a konstantních nákladů
Modelování odezvy zákazníků 20 Definice profilu cíle (3) Nastavení očekávaného zisku
Modelování odezvy zákazníků 21 Definice profilu cíle (4) 2.Řešení problému převzorkování (oversampling) V důsledku malého počtu pozitivních případů (12%) v původním zdroji by bylo při náhodném vzorkování pro dolování málo pozitivních příkladů => převzorkování – zvýšení podílu pozitivních na 54%.
Modelování odezvy zákazníků 22 Definice profilu cíle (5) Nastavení původní četnosti
Modelování odezvy zákazníků 23 Rozčlenění dat (1) 1.Vložení uzlu Partition
Modelování odezvy zákazníků 24 Rozčlenění dat (2) 2.Nastavení metody a poměru množin
Modelování odezvy zákazníků 25 Náhrada dat (1) 1.Vložení uzlu Replacement
Modelování odezvy zákazníků 26 Náhrada dat (2) 2.Zavedení ‘indikačních’ proměnných
Modelování odezvy zákazníků 27 Vytvoření regresního modelu (1) 1.Vložení uzlu Regression
Modelování odezvy zákazníků 28 Vytvoření regresního modelu (2) 2.Volba metody výběru proměnných
Modelování odezvy zákazníků 29 Vytvoření regresního modelu (3) 3.Specifikace názvu modelu
Modelování odezvy zákazníků 30 Hodnocení regresního modelu (1) 1.Vložení uzlu Assessment
Modelování odezvy zákazníků 31 Hodnocení regresního modelu (2) 2.Vytvoření a validace modelu
Modelování odezvy zákazníků 32 Hodnocení regresního modelu (3) 3.Prohlížení výsledků - kumulativní lift
Modelování odezvy zákazníků 33 Vytvoření regresního modelu (4) 4.Prohlížení výsledků - nekumulativní lift
Modelování odezvy zákazníků 34 Vytvoření rozhodovacího stromu (1) 1.Vložení uzlu Tree
Modelování odezvy zákazníků 35 Vytvoření rozhodovacího stromu (2) 2.Vytvoření stromu a prohlížení - tabulka
Modelování odezvy zákazníků 36 Vytvoření rozhodovacího stromu (3) 3.Vytvoření stromu a prohlížení - graf
Modelování odezvy zákazníků 37 Hodnocení stromového modelu (1) 1.Připojení Tree k uzlu Assessment
Modelování odezvy zákazníků 38 Hodnocení stromového modelu (2) 2.Výběr modelu
Modelování odezvy zákazníků 39 Hodnocení stromového modelu (3) 3.Výběr modelu, resp. obou pro porovnání
Modelování odezvy zákazníků 40 Hodnocení stromového modelu (4) 4.Porovnání modelů - kumulativní lift
Modelování odezvy zákazníků 41 Hodnocení stromového modelu (5) 5.Porovnání modelů - nekumulativní lift
Modelování odezvy zákazníků 42 Hodnocení stromového modelu (6) 6.Porovnání modelů - návratnost (ROI)
Modelování odezvy zákazníků 43 Vygenerování dokumentace (1) 1.Vložení uzlu Reporter
Modelování odezvy zákazníků 44 Vygenerování dokumentace (6) 2.Vygenerování sady HTML dokumentů
Modelování odezvy zákazníků 45 Aplikace modelu (1) 1.Vložení uzlu Score
Modelování odezvy zákazníků 46 Aplikace modelu (2) 2.Nastavení režimu
Modelování odezvy zákazníků 47 Aplikace modelu (3) 3.Uložení kódu aplikace, export
Modelování odezvy zákazníků 48 Aplikace modelu (4) 4.Editace kódu aplikace (1)
Modelování odezvy zákazníků 49 Aplikace modelu (5) 4.Editace kódu aplikace (2)
Modelování odezvy zákazníků 50 Aplikace modelu (6) 4.Spuštění, zobrazení výsledků
Modelování odezvy zákazníků 51 Aplikace modelu v prostředí EM (1) 1.Přidání uzlu Input Data Source
Modelování odezvy zákazníků 52 Aplikace modelu v prostředí EM (2) 2.Nastavení parametrů uzlu
Modelování odezvy zákazníků 53 Aplikace modelu v prostředí EM (3) 3.Nastavení zdrojových dat pro model
Modelování odezvy zákazníků 54 Aplikace modelu v prostředí EM (4) 4.Přidání uzlu Insight pro prohlížení
Modelování odezvy zákazníků 55 Aplikace modelu v prostředí EM (5) 5.Nastavení parametrů uzlu, spuštění