Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
4IZ210 – Zpracování informací a znalostí Ing. D. Pejčoch
LISP Miner a 3. úkol 4IZ210 – Zpracování informací a znalostí Ing. D. Pejčoch
2
Osnova cvičení Seznámení se zadáním 3. úkolu
Analýza nákupního košíku a asociační pravidla Teoretické pozadí procedury ASSOC Seznámení s nástrojem LISP Miner Demonstrace funkcionality nástroje na vzorových datech Detailní postup pro 3. úkol
3
Stručné zadání 3. úkolu Seznámení se s nástrojem LISP Miner
Vyřešení analytické otázky zadané jednotlivým týmům Navázání datového zdroje Příprava dat Použití procedury ASSOC (Fundovaná implikace, Nadprůměrné souvisení) Nalezení rozumného počtu hypotéz (max 30 – 50) Interpretace hypotéz s využitím dodatečných znalostí Vypracování analytické zprávy v systému Sewebar Vypracování zprávy pro lékaře v systému Sewebar
4
Užitečné i nezbytné zdroje
Tutoriály na LISP Miner: LM_SKRIPT_11.pdf = RAUCH, J. Systém LISp-Miner: Stručný popis určený pro posluchače kurzu Zpracování informací a znalostí. Praha: VŠE, = Popis systému a procedury ASSOC LMDataSource_0409.pdf = popis komponenty LM Data Source pro přípravu dat Adamek_pro_KIZI_0411.pdf = RAUCH, J., TOMEČKOVÁ, M. Adámek – popis dat (verse VI) = popis datového souboru použitého pro 3. úkol Adamek_4IZ210_11_12_zima_ZADANI.pdf = podrobné zadání úlohy 4ft-Miner_Cedenty_1111.pdf = Procedura 4ft-Miner – zadání množiny relevantních pravidel Adamek_Data.zip = data k zadání = export do SEWEBARu
5
Co je to analytická otázka?
klient(?) <=> kvalita(špatná) / typ(?) ... pro jaké parametry klienta a typy půjčky platí, že příslušnost klienta k segmentu je téměř totéž jako mít špatnou půjčku příslušného typu klient(?) =>* kvalita(špatná)... pro jaké parametry klienta platí, že vedou ke špatné půjčce
6
Asociační pravidla Pojem asociační pravidlo zaveden Agrawalem
V metodě GUHA se používal pojem hypotéza 4ft = implementace procedury ASSOC metody GUHA automatického vytváření hypotéz Lisp Miner = nástroj vyvíjený na KIZI
7
Přehled základních pojmů
Kvantifikátor vztahu ≈ / Antecedent Succedent Condition Cedenty dílčí cedenty (atributy) spojené konjunkcí literály (hodnoty atributů) spojené konjunkcí nebo disjunkcí
8
Příklad přidělení analytických otázek jednotlivým týmům
Zdroj: Adamek_4IZ210_...pdf
9
Úkol číslo 4: DZD – skupiny atributů
Zdroj: Adamek_4IZ210_...pdf
10
Zdroj: Adamek_pro_KIZI_...pdf, tzn. popis dat
11
Zdroj: Adamek_pro_KIZI_...pdf, tzn. popis dat
12
LISP Miner - instalace Stáhněte si z webu tyto soubory: = základní modul LM pro proc 4FT = modul pro Sewebar = webová služba pro export = Vzorová data o loanech
13
LISP Miner - instalace
14
LISP Miner – vytvoření datového zdroje pomocí LMAdmin
15
Otevření nastavení úlohy s možností přegenerování hypotéz
Spuštění modulu pro definici dat Přidání nové analýzy Spuštění modulu pro zobrazení výsledků (pro označenou úlohu)
17
Vytvoření kategoriálního atributu – krok 1
18
Vytvoření kategoriálního atributu – krok 2
Primary Key nastaví primární klíč!!!!!! Bez něj do nepůjde
19
Vytvoření kategoriálního atributu – krok 3
20
Vytvoření numerického spojitého atributu
Tab. 3 Adamek_pro_KIZI_0310.pdf
21
Typy intervalů Ekvidistantní intervaly = intervaly shodné délky
Ekvifrekvenční intervaly = intervaly se zhruba shodným počtem četností
22
Zdroj: Adamek_pro_KIZI_...pdf, tzn. popis dat
23
Pohled na vytvořené intervaly
24
Vytvoření skupin atributů pomocí Tree of atrib.
25
Vytvoření úlohy v 4ftTask
26
Určení Ant, Suc Rizikové faktory RFK/4 N Cholesterol CHL/4 R Suc ?
HLP = hyperlipoproteinemie DM = diabetes mellitero HT = hypertenze RF = rodinná anamnéza - fatální Cholesterol CHL/4 R Chol = Celkový cholesterol HDL = HDL Cholesterol LDL = LDL Cholesterol Tgl = Triacyglyceroly Suc ? Ant ? H: Jaké naměřené hodnoty CHL vedou k jednotlivým rizikovým faktorům
27
Definice antecedentu
28
Jediná kategorie dané proměnné v literálu
Coeficient type Podmnožina Jediná kategorie dané proměnné v literálu Klouzavý interval Řezy
35
Nastavení základních parametrů Antecedentu
36
Doporučené nastavení cedentů
Zdroj: Adamek_4IZ210_...pdf
37
Definice Succedentu
38
Použití procedury ASSOC
39
Vysvětlení čtyřpolní tabulky
Suc Non Suc Ant a b Non Ant c d Spolehlivost pravidla = a / (a + b) Podpora pravidla (Base) = a
40
Nastavení kvantifikátorů
41
Pohled na celkové nastavení úlohy
42
Výsledky generování hypotéz
43
Zobrazení hypotéz
44
Zobrazení hypotéz
45
Zobrazení hypotéz exportovaných do schránky
46
Export do SEWEBAR
47
Export do SEWEBAR
48
Postřehy k realizaci úkolu
Je pravděpodobné, že úvodní požadované nastavení parametrů neumožní vygenerování většího počtu hypotéz Expertimentální snižování parametrů má svá úskalí: Nízká podpoora => spolehlivá pravidla, která nelze generalizovat (min = 20) Nízká spolehlivost => neprůkazná pravidla Snížování parametrů je nutné okomentovat Teoretické pozadí procedury ASSOC Seznámení s nástrojem LISP Miner Demonstrace funkcionality nástroje na vzorových datech Detailní postup pro 3. úkol
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.