4IZ210 – Zpracování informací a znalostí Ing. D. Pejčoch LISP Miner a 3. úkol 4IZ210 – Zpracování informací a znalostí Ing. D. Pejčoch
Osnova cvičení Seznámení se zadáním 3. úkolu Analýza nákupního košíku a asociační pravidla Teoretické pozadí procedury ASSOC Seznámení s nástrojem LISP Miner Demonstrace funkcionality nástroje na vzorových datech Detailní postup pro 3. úkol
Stručné zadání 3. úkolu Seznámení se s nástrojem LISP Miner Vyřešení analytické otázky zadané jednotlivým týmům Navázání datového zdroje Příprava dat Použití procedury ASSOC (Fundovaná implikace, Nadprůměrné souvisení) Nalezení rozumného počtu hypotéz (max 30 – 50) Interpretace hypotéz s využitím dodatečných znalostí Vypracování analytické zprávy v systému Sewebar Vypracování zprávy pro lékaře v systému Sewebar
Užitečné i nezbytné zdroje Tutoriály na LISP Miner: http://lispminer.vse.cz/tutorial LM_SKRIPT_11.pdf = RAUCH, J. Systém LISp-Miner: Stručný popis určený pro posluchače kurzu Zpracování informací a znalostí. Praha: VŠE, 2011. = Popis systému a procedury ASSOC LMDataSource_0409.pdf = popis komponenty LM Data Source pro přípravu dat Adamek_pro_KIZI_0411.pdf = RAUCH, J., TOMEČKOVÁ, M. Adámek – popis dat (verse VI) = popis datového souboru použitého pro 3. úkol Adamek_4IZ210_11_12_zima_ZADANI.pdf = podrobné zadání úlohy 4ft-Miner_Cedenty_1111.pdf = Procedura 4ft-Miner – zadání množiny relevantních pravidel Adamek_Data.zip = data k zadání http://lispminer.vse.cz/tutorial/t6.html = export do SEWEBARu
Co je to analytická otázka? klient(?) <=> kvalita(špatná) / typ(?) ... pro jaké parametry klienta a typy půjčky platí, že příslušnost klienta k segmentu je téměř totéž jako mít špatnou půjčku příslušného typu klient(?) =>* kvalita(špatná)... pro jaké parametry klienta platí, že vedou ke špatné půjčce
Asociační pravidla Pojem asociační pravidlo zaveden Agrawalem V metodě GUHA se používal pojem hypotéza 4ft = implementace procedury ASSOC metody GUHA automatického vytváření hypotéz Lisp Miner = nástroj vyvíjený na KIZI
Přehled základních pojmů Kvantifikátor vztahu ≈ / Antecedent Succedent Condition Cedenty dílčí cedenty (atributy) spojené konjunkcí literály (hodnoty atributů) spojené konjunkcí nebo disjunkcí
Příklad přidělení analytických otázek jednotlivým týmům Zdroj: Adamek_4IZ210_...pdf
Úkol číslo 4: DZD – skupiny atributů Zdroj: Adamek_4IZ210_...pdf
Zdroj: Adamek_pro_KIZI_...pdf, tzn. popis dat
Zdroj: Adamek_pro_KIZI_...pdf, tzn. popis dat
LISP Miner - instalace Stáhněte si z webu http://lispminer.vse.cz/download tyto soubory: http://lispminer.vse.cz/files/exe/LM.4ft.zip = základní modul LM pro proc 4FT http://lispminer.vse.cz/files/exe/LM.Sewebar.zip = modul pro Sewebar http://lispminer.vse.cz/files/exe/ws.export.zip = webová služba pro export http://lispminer.vse.cz/files/exe/Barbora.zip = Vzorová data o loanech
LISP Miner - instalace
LISP Miner – vytvoření datového zdroje pomocí LMAdmin
Otevření nastavení úlohy s možností přegenerování hypotéz Spuštění modulu pro definici dat Přidání nové analýzy Spuštění modulu pro zobrazení výsledků (pro označenou úlohu)
Vytvoření kategoriálního atributu – krok 1
Vytvoření kategoriálního atributu – krok 2 Primary Key nastaví primární klíč!!!!!! Bez něj do nepůjde
Vytvoření kategoriálního atributu – krok 3
Vytvoření numerického spojitého atributu Tab. 3 Adamek_pro_KIZI_0310.pdf
Typy intervalů Ekvidistantní intervaly = intervaly shodné délky Ekvifrekvenční intervaly = intervaly se zhruba shodným počtem četností
Zdroj: Adamek_pro_KIZI_...pdf, tzn. popis dat
Pohled na vytvořené intervaly
Vytvoření skupin atributů pomocí Tree of atrib.
Vytvoření úlohy v 4ftTask
Určení Ant, Suc Rizikové faktory RFK/4 N Cholesterol CHL/4 R Suc ? HLP = hyperlipoproteinemie DM = diabetes mellitero HT = hypertenze RF = rodinná anamnéza - fatální Cholesterol CHL/4 R Chol = Celkový cholesterol HDL = HDL Cholesterol LDL = LDL Cholesterol Tgl = Triacyglyceroly Suc ? Ant ? H: Jaké naměřené hodnoty CHL vedou k jednotlivým rizikovým faktorům
Definice antecedentu
Jediná kategorie dané proměnné v literálu Coeficient type Podmnožina Jediná kategorie dané proměnné v literálu Klouzavý interval Řezy
Nastavení základních parametrů Antecedentu
Doporučené nastavení cedentů Zdroj: Adamek_4IZ210_...pdf
Definice Succedentu
Použití procedury ASSOC
Vysvětlení čtyřpolní tabulky Suc Non Suc Ant a b Non Ant c d Spolehlivost pravidla = a / (a + b) Podpora pravidla (Base) = a
Nastavení kvantifikátorů
Pohled na celkové nastavení úlohy
Výsledky generování hypotéz
Zobrazení hypotéz
Zobrazení hypotéz
Zobrazení hypotéz exportovaných do schránky
Export do SEWEBAR
Export do SEWEBAR
Postřehy k realizaci úkolu Je pravděpodobné, že úvodní požadované nastavení parametrů neumožní vygenerování většího počtu hypotéz Expertimentální snižování parametrů má svá úskalí: Nízká podpoora => spolehlivá pravidla, která nelze generalizovat (min = 20) Nízká spolehlivost => neprůkazná pravidla Snížování parametrů je nutné okomentovat Teoretické pozadí procedury ASSOC Seznámení s nástrojem LISP Miner Demonstrace funkcionality nástroje na vzorových datech Detailní postup pro 3. úkol