Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

LISP Miner a 3. úkol 4IZ210 – Zpracování informací a znalostí Ing. D. Pejčoch.

Podobné prezentace


Prezentace na téma: "LISP Miner a 3. úkol 4IZ210 – Zpracování informací a znalostí Ing. D. Pejčoch."— Transkript prezentace:

1 LISP Miner a 3. úkol 4IZ210 – Zpracování informací a znalostí Ing. D. Pejčoch

2 Osnova cvičení • Seznámení se zadáním 3. úkolu • Analýza nákupního košíku a asociační pravidla • Teoretické pozadí procedury ASSOC • Seznámení s nástrojem LISP Miner • Demonstrace funkcionality nástroje na vzorových datech • Detailní postup pro 3. úkol

3 Stručné zadání 3. úkolu • Seznámení se s nástrojem LISP Miner • Vyřešení analytické otázky zadané jednotlivým týmům – Navázání datového zdroje – Příprava dat – Použití procedury ASSOC (Fundovaná implikace, Nadprůměrné souvisení) – Nalezení rozumného počtu hypotéz (max 30 – 50) – Interpretace hypotéz s využitím dodatečných znalostí • Vypracování analytické zprávy v systému Sewebar • Vypracování zprávy pro lékaře v systému Sewebar

4 Užitečné i nezbytné zdroje • Tutoriály na LISP Miner: • LM_SKRIPT_11.pdf = RAUCH, J. Systém LISp-Miner: Stručný popis určený pro posluchače kurzu Zpracování informací a znalostí. Praha: VŠE, = Popis systému a procedury ASSOC • LMDataSource_0409.pdf = popis komponenty LM Data Source pro přípravu dat • Adamek_pro_KIZI_0411.pdf = RAUCH, J., TOMEČKOVÁ, M. Adámek – popis dat (verse VI) = popis datového souboru použitého pro 3. úkol • Adamek_4IZ210_11_12_zima_ZADANI.pdf = podrobné zadání úlohy • 4ft-Miner_Cedenty_1111.pdf = Procedura 4ft-Miner – zadání množiny relevantních pravidel • Adamek_Data.zip = data k zadání • = export do SEWEBARu

5 Co je to analytická otázka? • klient(?) kvalita(špatná) / typ(?)... pro jaké parametry klienta a typy půjčky platí, že příslušnost klienta k segmentu je téměř totéž jako mít špatnou půjčku příslušného typu • klient(?) =>* kvalita(špatná)... pro jaké parametry klienta platí, že vedou ke špatné půjčce

6 Asociační pravidla • Pojem asociační pravidlo zaveden Agrawalem • V metodě GUHA se používal pojem hypotéza • 4ft = implementace procedury ASSOC metody GUHA automatického vytváření hypotéz • Lisp Miner = nástroj vyvíjený na KIZI

7 Přehled základních pojmů AntecedentSuccedent ≈ / Condition Kvantifikátor vztahu Cedenty dílčí cedenty (atributy) spojené konjunkcí literály (hodnoty atributů) spojené konjunkcí nebo disjunkcí

8 8 Příklad přidělení analytických otázek jednotlivým týmům Zdroj: Adamek_4IZ210_...pdf

9 9 Úkol číslo 4: DZD – skupiny atributů Zdroj: Adamek_4IZ210_...pdf

10 Zdroj: Adamek_pro_KIZI_...pdf, tzn. popis dat

11

12 LISP Miner - instalace Stáhněte si z webu tyto soubory:http://lispminer.vse.cz/download • = základní modul LM pro proc 4FT • = modul pro Sewebar • = webová služba pro export • = Vzorová data o loanech

13 LISP Miner - instalace

14 LISP Miner – vytvoření datového zdroje pomocí LMAdmin

15 Přidání nové analýzy Spuštění modulu pro definici dat Spuštění modulu pro zobrazení výsledků (pro označenou úlohu) Otevření nastavení úlohy s možností přegenerování hypotéz

16

17 Vytvoření kategoriálního atributu – krok 1

18 Vytvoření kategoriálního atributu – krok 2 Primary Key nastaví primární klíč!!!!!! Bez něj do nepůjde

19 Vytvoření kategoriálního atributu – krok 3

20 Vytvoření numerického spojitého atributu Tab. 3 Adamek_pro_KIZI_0310.pdf

21 Typy intervalů • Ekvidistantní intervaly = intervaly shodné délky • Ekvifrekvenční intervaly = intervaly se zhruba shodným počtem četností

22 Zdroj: Adamek_pro_KIZI_...pdf, tzn. popis dat

23 Pohled na vytvořené intervaly

24 Vytvoření skupin atributů pomocí Tree of atrib.

25 Vytvoření úlohy v 4ftTask

26 Určení Ant, Suc • Rizikové faktory RFK/4 N – HLP = hyperlipoproteinemie – DM = diabetes mellitero – HT = hypertenze – RF = rodinná anamnéza - fatální • Cholesterol CHL/4 R – Chol = Celkový cholesterol – HDL = HDL Cholesterol – LDL = LDL Cholesterol – Tgl = Triacyglyceroly Suc ? Ant ? H: Jaké naměřené hodnoty CHL vedou k jednotlivým rizikovým faktorům

27 Definice antecedentu

28 Coeficient type Podmnožina Klouzavý interval Jediná kategorie dané proměnné v literálu Řezy

29

30

31

32

33

34

35 Nastavení základních parametrů Antecedentu

36 Doporučené nastavení cedentů Zdroj: Adamek_4IZ210_...pdf

37 Definice Succedentu

38 Použití procedury ASSOC

39 Vysvětlení čtyřpolní tabulky SucNon Suc Antab Non Antcd Spolehlivost pravidla = a / (a + b) Podpora pravidla (Base) = a

40 Nastavení kvantifikátorů

41 Pohled na celkové nastavení úlohy

42 Výsledky generování hypotéz

43 Zobrazení hypotéz

44

45 Zobrazení hypotéz exportovaných do schránky

46 Export do SEWEBAR

47

48 Postřehy k realizaci úkolu • Je pravděpodobné, že úvodní požadované nastavení parametrů neumožní vygenerování většího počtu hypotéz • Expertimentální snižování parametrů má svá úskalí: – Nízká podpoora => spolehlivá pravidla, která nelze generalizovat (min = 20) – Nízká spolehlivost => neprůkazná pravidla – Snížování parametrů je nutné okomentovat • Teoretické pozadí procedury ASSOC • Seznámení s nástrojem LISP Miner • Demonstrace funkcionality nástroje na vzorových datech • Detailní postup pro 3. úkol


Stáhnout ppt "LISP Miner a 3. úkol 4IZ210 – Zpracování informací a znalostí Ing. D. Pejčoch."

Podobné prezentace


Reklamy Google