Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

KDD II David Pejčoch. KDD vs. data mining KDD = Knowledge discovery in databases, česky Získávání znalostí z databází nebo DZD = celý proces (viz např.

Podobné prezentace


Prezentace na téma: "KDD II David Pejčoch. KDD vs. data mining KDD = Knowledge discovery in databases, česky Získávání znalostí z databází nebo DZD = celý proces (viz např."— Transkript prezentace:

1 KDD II David Pejčoch

2 KDD vs. data mining KDD = Knowledge discovery in databases, česky Získávání znalostí z databází nebo DZD = celý proces (viz např. CRISP-DM) data mining = část procesu spočívající ve vlastním vytěžení... ale... v praxi se rozdíl mezi pojmy stírá

3 Klíčové výzvy KDD Začlenění dodatečných znalostí do modelů Srozumitelná reprezentace získaných znalostí Větší interaktivita s uživatelem Vypořádání se s nekvalitními daty Zohlednění subjektivních metrik Media mining Relační data mining (bez nutnosti specifické přípravy) Vytěžování sociálních sítí (Facebook v ČR 2,7 mio)

4 Jaké použít nástroje? Nekomerční Weka, Yale, R, Rapid Miner, Knime Komerční SAS Enterprise Miner (kvadrant leaderů) SAS STAT modul IBM SPSS Modeller (dříve Clementine) (kvadrant leaderů Angoss Software... v některých případech jsou součástí DB řešení

5 ... jaké je zadání? Přiřazení analytické otázky jednotlivým týmům Určení antecedentu a sukcedentu Použití procedury ASSOC Fundovaná implikace AA kvantifikátor Nalezení rozumného počtu pravidel Interpretace s využitím dodatečných znalostí Automatické vytvoření zprávy na SEWEBAR Syntetizující zpráva na SEWEBAR

6 Analytické úlohy pro naše týmy ČísloOznačeníPočet atributůNázevTýmTypy 1OSB3Osobní údajeR, N 2SCA5Sociální anamnézaN, O 3AKT2 AktivityN, O 4MRY7MíryKromě T40R, N 5RFK4 Rizikové faktoryT40N 6OBT5ObtížeO, N 7KTL2Krevní tlakT36R 8EKG3 T37, T40R 9CHL4 Laboratoř CholesterolT38R 10GKM2 Laboratoř GKMT39R 11LAB6 LaboratořR

7

8 Doporučené nastavení cedentů SkupinaDoporučené výchozí parametry Číslo Název AtributůMin. délkaMax. délkakonjunkce/disjunkce 1 Osobní 313konjunkce 2Sociální anamnéza513konjunkce 3Aktivity212konjunkce 4 Míry 212konjunkce 5Rizikové faktory413konjunkce 6Obtíže515disjunkce 7 Krevní tlak 212konjunkce 8 EKG 313konjunkce 9 Laboratoř Cholesterol 413konjunkce 10Laboratoř GKM212konjunkce

9 Doporučené nastavení: Literal type = Basic Gace type = Positive Mění se podle zadání: Coefficient type Coefficient length

10 Použití procedury ASSOC AplikaceParametry číslonázevzadání literálů pro atributy typu R kvantifikátor 1FUI: – int: ANT => SUC intervalyFundovaná implikace  0.95,30 2AA: – cut: ANT =>+ SUC cutAA –kvantifikátor  +0.2,30

11 ... tak, jdeme na to


Stáhnout ppt "KDD II David Pejčoch. KDD vs. data mining KDD = Knowledge discovery in databases, česky Získávání znalostí z databází nebo DZD = celý proces (viz např."

Podobné prezentace


Reklamy Google