Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

4IZ210 – Zpracování informací a znalostí Ing. D. Pejčoch

Podobné prezentace


Prezentace na téma: "4IZ210 – Zpracování informací a znalostí Ing. D. Pejčoch"— Transkript prezentace:

1 4IZ210 – Zpracování informací a znalostí Ing. D. Pejčoch
LISP Miner a 3. úkol 4IZ210 – Zpracování informací a znalostí Ing. D. Pejčoch

2 Osnova cvičení Seznámení se zadáním 3. úkolu
Analýza nákupního košíku a asociační pravidla Teoretické pozadí procedury ASSOC Seznámení s nástrojem LISP Miner Demonstrace funkcionality nástroje na vzorových datech Detailní postup pro 3. úkol

3 Stručné zadání 3. úkolu Seznámení se s nástrojem LISP Miner
Vyřešení analytické otázky zadané jednotlivým týmům Navázání datového zdroje Příprava dat Použití procedury ASSOC (Fundovaná implikace, Nadprůměrné souvisení) Nalezení rozumného počtu hypotéz (max 30 – 50) Interpretace hypotéz s využitím dodatečných znalostí Vypracování analytické zprávy v systému Sewebar Vypracování zprávy pro lékaře v systému Sewebar

4 Užitečné i nezbytné zdroje
Tutoriály na LISP Miner: LM_SKRIPT_11.pdf = RAUCH, J. Systém LISp-Miner: Stručný popis určený pro posluchače kurzu Zpracování informací a znalostí. Praha: VŠE, = Popis systému a procedury ASSOC LMDataSource_0409.pdf = popis komponenty LM Data Source pro přípravu dat Adamek_pro_KIZI_0411.pdf = RAUCH, J., TOMEČKOVÁ, M. Adámek – popis dat (verse VI) = popis datového souboru použitého pro 3. úkol Adamek_4IZ210_11_12_zima_ZADANI.pdf = podrobné zadání úlohy 4ft-Miner_Cedenty_1111.pdf = Procedura 4ft-Miner – zadání množiny relevantních pravidel Adamek_Data.zip = data k zadání = export do SEWEBARu

5 Co je to analytická otázka?
klient(?) <=> kvalita(špatná) / typ(?) ... pro jaké parametry klienta a typy půjčky platí, že příslušnost klienta k segmentu je téměř totéž jako mít špatnou půjčku příslušného typu klient(?) =>* kvalita(špatná)... pro jaké parametry klienta platí, že vedou ke špatné půjčce

6 Asociační pravidla Pojem asociační pravidlo zaveden Agrawalem
V metodě GUHA se používal pojem hypotéza 4ft = implementace procedury ASSOC metody GUHA automatického vytváření hypotéz Lisp Miner = nástroj vyvíjený na KIZI

7 Přehled základních pojmů
Kvantifikátor vztahu / Antecedent Succedent Condition Cedenty dílčí cedenty (atributy) spojené konjunkcí literály (hodnoty atributů) spojené konjunkcí nebo disjunkcí

8 Příklad přidělení analytických otázek jednotlivým týmům
Zdroj: Adamek_4IZ210_...pdf

9 Úkol číslo 4: DZD – skupiny atributů
Zdroj: Adamek_4IZ210_...pdf

10 Zdroj: Adamek_pro_KIZI_...pdf, tzn. popis dat

11 Zdroj: Adamek_pro_KIZI_...pdf, tzn. popis dat

12 LISP Miner - instalace Stáhněte si z webu tyto soubory: = základní modul LM pro proc 4FT = modul pro Sewebar = webová služba pro export = Vzorová data o loanech

13 LISP Miner - instalace

14 LISP Miner – vytvoření datového zdroje pomocí LMAdmin

15 Otevření nastavení úlohy s možností přegenerování hypotéz
Spuštění modulu pro definici dat Přidání nové analýzy Spuštění modulu pro zobrazení výsledků (pro označenou úlohu)

16

17 Vytvoření kategoriálního atributu – krok 1

18 Vytvoření kategoriálního atributu – krok 2
Primary Key nastaví primární klíč!!!!!! Bez něj do nepůjde

19 Vytvoření kategoriálního atributu – krok 3

20 Vytvoření numerického spojitého atributu
Tab. 3 Adamek_pro_KIZI_0310.pdf

21 Typy intervalů Ekvidistantní intervaly = intervaly shodné délky
Ekvifrekvenční intervaly = intervaly se zhruba shodným počtem četností

22 Zdroj: Adamek_pro_KIZI_...pdf, tzn. popis dat

23 Pohled na vytvořené intervaly

24 Vytvoření skupin atributů pomocí Tree of atrib.

25 Vytvoření úlohy v 4ftTask

26 Určení Ant, Suc Rizikové faktory RFK/4 N Cholesterol CHL/4 R Suc ?
HLP = hyperlipoproteinemie DM = diabetes mellitero HT = hypertenze RF = rodinná anamnéza - fatální Cholesterol CHL/4 R Chol = Celkový cholesterol HDL = HDL Cholesterol LDL = LDL Cholesterol Tgl = Triacyglyceroly Suc ? Ant ? H: Jaké naměřené hodnoty CHL vedou k jednotlivým rizikovým faktorům

27 Definice antecedentu

28 Jediná kategorie dané proměnné v literálu
Coeficient type Podmnožina Jediná kategorie dané proměnné v literálu Klouzavý interval Řezy

29

30

31

32

33

34

35 Nastavení základních parametrů Antecedentu

36 Doporučené nastavení cedentů
Zdroj: Adamek_4IZ210_...pdf

37 Definice Succedentu

38 Použití procedury ASSOC

39 Vysvětlení čtyřpolní tabulky
Suc Non Suc Ant a b Non Ant c d Spolehlivost pravidla = a / (a + b) Podpora pravidla (Base) = a

40 Nastavení kvantifikátorů

41 Pohled na celkové nastavení úlohy

42 Výsledky generování hypotéz

43 Zobrazení hypotéz

44 Zobrazení hypotéz

45 Zobrazení hypotéz exportovaných do schránky

46 Export do SEWEBAR

47 Export do SEWEBAR

48 Postřehy k realizaci úkolu
Je pravděpodobné, že úvodní požadované nastavení parametrů neumožní vygenerování většího počtu hypotéz Expertimentální snižování parametrů má svá úskalí: Nízká podpoora => spolehlivá pravidla, která nelze generalizovat (min = 20) Nízká spolehlivost => neprůkazná pravidla Snížování parametrů je nutné okomentovat Teoretické pozadí procedury ASSOC Seznámení s nástrojem LISP Miner Demonstrace funkcionality nástroje na vzorových datech Detailní postup pro 3. úkol


Stáhnout ppt "4IZ210 – Zpracování informací a znalostí Ing. D. Pejčoch"

Podobné prezentace


Reklamy Google