KDD II David Pejčoch
KDD vs. data mining KDD = Knowledge discovery in databases, česky Získávání znalostí z databází nebo DZD = celý proces (viz např. CRISP-DM) data mining = část procesu spočívající ve vlastním vytěžení... ale... v praxi se rozdíl mezi pojmy stírá
Klíčové výzvy KDD Začlenění dodatečných znalostí do modelů Srozumitelná reprezentace získaných znalostí Větší interaktivita s uživatelem Vypořádání se s nekvalitními daty Zohlednění subjektivních metrik Media mining Relační data mining (bez nutnosti specifické přípravy) Vytěžování sociálních sítí (Facebook v ČR 2,7 mio)
Jaké použít nástroje? Nekomerční Weka, Yale, R, Rapid Miner, Knime Komerční SAS Enterprise Miner (kvadrant leaderů) SAS STAT modul IBM SPSS Modeller (dříve Clementine) (kvadrant leaderů Angoss Software... v některých případech jsou součástí DB řešení
... jaké je zadání? Přiřazení analytické otázky jednotlivým týmům Určení antecedentu a sukcedentu Použití procedury ASSOC Fundovaná implikace AA kvantifikátor Nalezení rozumného počtu pravidel Interpretace s využitím dodatečných znalostí Automatické vytvoření zprávy na SEWEBAR Syntetizující zpráva na SEWEBAR
Analytické úlohy pro naše týmy ČísloOznačeníPočet atributůNázevTýmTypy 1OSB3Osobní údajeR, N 2SCA5Sociální anamnézaN, O 3AKT2 AktivityN, O 4MRY7MíryKromě T40R, N 5RFK4 Rizikové faktoryT40N 6OBT5ObtížeO, N 7KTL2Krevní tlakT36R 8EKG3 T37, T40R 9CHL4 Laboratoř CholesterolT38R 10GKM2 Laboratoř GKMT39R 11LAB6 LaboratořR
Doporučené nastavení cedentů SkupinaDoporučené výchozí parametry Číslo Název AtributůMin. délkaMax. délkakonjunkce/disjunkce 1 Osobní 313konjunkce 2Sociální anamnéza513konjunkce 3Aktivity212konjunkce 4 Míry 212konjunkce 5Rizikové faktory413konjunkce 6Obtíže515disjunkce 7 Krevní tlak 212konjunkce 8 EKG 313konjunkce 9 Laboratoř Cholesterol 413konjunkce 10Laboratoř GKM212konjunkce
Doporučené nastavení: Literal type = Basic Gace type = Positive Mění se podle zadání: Coefficient type Coefficient length
Použití procedury ASSOC AplikaceParametry číslonázevzadání literálů pro atributy typu R kvantifikátor 1FUI: – int: ANT => SUC intervalyFundovaná implikace 0.95,30 2AA: – cut: ANT =>+ SUC cutAA –kvantifikátor +0.2,30
... tak, jdeme na to