4IZ210 – Zpracování informací a znalostí Ing. D. Pejčoch

Slides:



Advertisements
Podobné prezentace
Amadeus – modul Dárci - změny za rok 2013.
Advertisements

(B1 Print and Delivery) B1 Tisk a odeslání Ing. Miroslav Beran Servis/Helpdesk.
Multirelační GUHA, Ferda a genetická data
Podpora terénních prací v projektu NIKM - národní inventarizace kontaminovaných míst, automatizace úloh Roman Bukáček, Jiří Chroust, Petr Pala, Jiří Zvolánek,
OBECNÉ OPTIMALIZAČNÍ MODELY
PrecisPlanner 3D Software pro plánování přesnosti měření v IG
Ing. David Pejčoch Tutorial
Vedoucí: Ing. Jan Růžička
Zpracování informací a znalostí Zadání úkolu č. 4 – DZD Jan Rauch Katedra informačního a znalostního inženýrství.
David Pejčoch. Práce se SEWEBARem Použijte tutoriál: Krok 1: Stažení.
KDD II David Pejčoch. KDD vs. data mining KDD = Knowledge discovery in databases, česky Získávání znalostí z databází nebo DZD = celý proces (viz např.
Úvod Klasifikace disciplín operačního výzkumu
SAS Jan Blaťák Laboratoř vyhledávání znalostí Fakulta informatiky Masarykova Univerzita, Brno
LMS Unifor Live! Inovace kombinovaného studia. Teoretická část (45 minut) Definice pojmů Přihlášení do LMS Unifor Live! Program.
Albertina a Report Mgr. Libuše Simandlová
Patria Plus Mgr. Libuše Simandlová Centrum informačních a knihovnických služeb Odbor informační podpory studia a výzkumu
Sociologie – metody a techniky sociologického výzkumu
Rozložení EEG elektrod (10-20 system)
Zpracování seminárních a kvalifikačních prací
Organon Interaktivní webová aplikace pro výuku logiky
LMS Unifor Live! Inovace kombinovaného studia. Teoretická část (45 minut) Definice pojmů Přihlášení do LMS Unifor Live! Program.
Koreferát: LISp-Miner a (lékařské) ontologie Vojtěch Svátek.
4EK416 Ekonometrie Úvod do předmětu – obecné informace
Název: Access – moduly - Microsoft Visual Basic Autor: Ing. Antonín Dvořák Datum (období) vytvoření: Předmět: Informační a komunikační technologie.
Zpracování informací a znalostí Zadání úkolu č. 4 – DZD
4IZ 229 GEBZ (grafický editor báze znalostí) Vladimír Laš.
Získávání informací Získání informací o reálném systému
1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec.
Aukro.cz – projektový management v e-commerce Tereza Kabrdová.
Prezentace bakalářské práce. Josef Karliak, DiS. Monitoring záložních zdrojů UPS připojených do sítě Fakultní nemocnice v Hradci Králové.
Kvantitativní metody výzkumu v praxi (KMVP) 0. Poučení z minulých ročníků a novinky od ZS 2013 (2011) poslední aktualizace Jiří Šafr jiri.safr(at)seznam.cz.
PHP – Základy programování
Autor: Miroslav VÁLEK, Horní Bečva 2008 Vedoucí práce: Prof. RNDr. Vít Voženílek,CSc Univerzita Palackého v Olomouci / Přírodovědecká fakulta / Katedra.
Jaroslav Šnajberk, Přemek Brada
Konference projektu Cesta ke kvalitě
Management a rozvoj obcí
Relační databáze.
Ing. Jan Mittner Základy MVC 2. Rozšíření layoutu 3. helpery 4. Bootstrap a přepis URL adres 2.
Podnikové informační systémy C7 – Data Mining a získávání znalostí České vysoké učení technické v Praze Fakulta strojní ústav Řízení a ekonomiky podniku.
Databázové systémy Přednáška č. 6 Proces návrhu databáze.
Úvodní setkání Ing. Zuzana Khendriche Trhlínová, Ph.D.
Dokumentace objektů a zveřejnění funkcí
Výukový materiál zpracovaný v rámci projektu Označení:Sada: Ověření ve výuce:Třída: Datum: Registrační číslo projektu:CZ.1.07/1.5.00/ VY_32_INOVACE_MAM_KC_1_11.
Copyright (C) 2000 Vema, a. s.1 V3 klient Michal Máčel Provozní integrace G2, HR/Win a internetu.
Přednáška č. 1 Proces návrhu databáze
Programovací jazyk Haskell doc. Dr. Ing. Miroslav Beneš  katedra informatiky, A-1007 
Osnova kurzu – modulu A3 PŘÍPRAVA PROJEKTU
PRAKTICKÉ ZKUŠENOSTI Z VÝUKY David Chudán 1. NASAZENÍ VE VÝUCE SEWEBAR-CMS je nasazen při výuce OP předmětu 4IZ210 druhý semestr. Za tyto dva semestry.
Vzdálené počítačové sítě a programování v prostředí Windows Okruhy ke zkoušce z předmětu: Ing. Zdeněk Votruba LVALVA.
Využití ontologií při dobývání znalostí z databází Hana Češpivová.
B2 – Analýza požadavků a jejich zajištění Systém dalšího vzdělávání pracovníků výzkumu a vývoje v Moravskoslezském kraji a jeho realizace.
Projektové plánování.
Kvantitativní metody výzkumu v praxi
INFORMAČNÍ SYSTÉMY CVIČENÍ: Semestrální projekt Podmínky udělení zápočtu Ing. Roman Danel, Ph.D. Institut ekonomiky a systémů řízení.
1 Řízení implementace IS a SS* Šablony. 2 Vzorové postupy.
Projekt LISp-Miner Milan Šimůnek. Milan Šimůnek – Projekt LISp-Miner2 Obsah Význam databází a uchovávaných informací Proces dobývání znalostí z databází.
Aplikovaná statistika 2. Veronika Svobodová
Didaktika přírodopisu 2 Mgr. Libuše VODOVÁ Katedra biologie PdF MU.
Postup při empirickém kvantitativním výzkumu
© Institut biostatistiky a analýz Vícerozměrné metody - cvičení RNDr. Eva Janoušová Podzim 2014.
BIOSTATISTIKA LS 2016 Garant předmětu: Ing. Martina Litschmannová, Ph.D. Přednášející: Ing. Martina Litschmannová, Ph.D. Cvičící: Ing. Martina Litschmannová,
Ověření modelů a modelování Kateřina Růžičková. Posouzení kvality modelu Ověření (verifikace) ● kvalitativní hodnocení správnosti modelu ● zda model přijatelně.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
Statistika 1.cvičení. Základní informace Ing. Daniela Krbcová Materiály ze cvičení, přednášky Skripta k předmětu,
Albertina a Report Mgr. Libuše Simandlová
Debrief ke komunikační kampani Praha, 13. května 2016
Spojitá a kategoriální data Základní popisné statistiky
Programovací jazyk Haskell
METODOLOGIE PROJEKTOVÁNÍ
Praktický modul - zadání
Transkript prezentace:

4IZ210 – Zpracování informací a znalostí Ing. D. Pejčoch LISP Miner a 3. úkol 4IZ210 – Zpracování informací a znalostí Ing. D. Pejčoch

Osnova cvičení Seznámení se zadáním 3. úkolu Analýza nákupního košíku a asociační pravidla Teoretické pozadí procedury ASSOC Seznámení s nástrojem LISP Miner Demonstrace funkcionality nástroje na vzorových datech Detailní postup pro 3. úkol

Stručné zadání 3. úkolu Seznámení se s nástrojem LISP Miner Vyřešení analytické otázky zadané jednotlivým týmům Navázání datového zdroje Příprava dat Použití procedury ASSOC (Fundovaná implikace, Nadprůměrné souvisení) Nalezení rozumného počtu hypotéz (max 30 – 50) Interpretace hypotéz s využitím dodatečných znalostí Vypracování analytické zprávy v systému Sewebar Vypracování zprávy pro lékaře v systému Sewebar

Užitečné i nezbytné zdroje Tutoriály na LISP Miner: http://lispminer.vse.cz/tutorial LM_SKRIPT_11.pdf = RAUCH, J. Systém LISp-Miner: Stručný popis určený pro posluchače kurzu Zpracování informací a znalostí. Praha: VŠE, 2011. = Popis systému a procedury ASSOC LMDataSource_0409.pdf = popis komponenty LM Data Source pro přípravu dat Adamek_pro_KIZI_0411.pdf = RAUCH, J., TOMEČKOVÁ, M. Adámek – popis dat (verse VI) = popis datového souboru použitého pro 3. úkol Adamek_4IZ210_11_12_zima_ZADANI.pdf = podrobné zadání úlohy 4ft-Miner_Cedenty_1111.pdf = Procedura 4ft-Miner – zadání množiny relevantních pravidel Adamek_Data.zip = data k zadání http://lispminer.vse.cz/tutorial/t6.html = export do SEWEBARu

Co je to analytická otázka? klient(?) <=> kvalita(špatná) / typ(?) ... pro jaké parametry klienta a typy půjčky platí, že příslušnost klienta k segmentu je téměř totéž jako mít špatnou půjčku příslušného typu klient(?) =>* kvalita(špatná)... pro jaké parametry klienta platí, že vedou ke špatné půjčce

Asociační pravidla Pojem asociační pravidlo zaveden Agrawalem V metodě GUHA se používal pojem hypotéza 4ft = implementace procedury ASSOC metody GUHA automatického vytváření hypotéz Lisp Miner = nástroj vyvíjený na KIZI

Přehled základních pojmů Kvantifikátor vztahu ≈ / Antecedent Succedent Condition Cedenty dílčí cedenty (atributy) spojené konjunkcí literály (hodnoty atributů) spojené konjunkcí nebo disjunkcí

Příklad přidělení analytických otázek jednotlivým týmům Zdroj: Adamek_4IZ210_...pdf

Úkol číslo 4: DZD – skupiny atributů Zdroj: Adamek_4IZ210_...pdf

Zdroj: Adamek_pro_KIZI_...pdf, tzn. popis dat

Zdroj: Adamek_pro_KIZI_...pdf, tzn. popis dat

LISP Miner - instalace Stáhněte si z webu http://lispminer.vse.cz/download tyto soubory: http://lispminer.vse.cz/files/exe/LM.4ft.zip = základní modul LM pro proc 4FT http://lispminer.vse.cz/files/exe/LM.Sewebar.zip = modul pro Sewebar http://lispminer.vse.cz/files/exe/ws.export.zip = webová služba pro export http://lispminer.vse.cz/files/exe/Barbora.zip = Vzorová data o loanech

LISP Miner - instalace

LISP Miner – vytvoření datového zdroje pomocí LMAdmin

Otevření nastavení úlohy s možností přegenerování hypotéz Spuštění modulu pro definici dat Přidání nové analýzy Spuštění modulu pro zobrazení výsledků (pro označenou úlohu)

Vytvoření kategoriálního atributu – krok 1

Vytvoření kategoriálního atributu – krok 2 Primary Key nastaví primární klíč!!!!!! Bez něj do nepůjde

Vytvoření kategoriálního atributu – krok 3

Vytvoření numerického spojitého atributu Tab. 3 Adamek_pro_KIZI_0310.pdf

Typy intervalů Ekvidistantní intervaly = intervaly shodné délky Ekvifrekvenční intervaly = intervaly se zhruba shodným počtem četností

Zdroj: Adamek_pro_KIZI_...pdf, tzn. popis dat

Pohled na vytvořené intervaly

Vytvoření skupin atributů pomocí Tree of atrib.

Vytvoření úlohy v 4ftTask

Určení Ant, Suc Rizikové faktory RFK/4 N Cholesterol CHL/4 R Suc ? HLP = hyperlipoproteinemie DM = diabetes mellitero HT = hypertenze RF = rodinná anamnéza - fatální Cholesterol CHL/4 R Chol = Celkový cholesterol HDL = HDL Cholesterol LDL = LDL Cholesterol Tgl = Triacyglyceroly Suc ? Ant ? H: Jaké naměřené hodnoty CHL vedou k jednotlivým rizikovým faktorům

Definice antecedentu

Jediná kategorie dané proměnné v literálu Coeficient type Podmnožina Jediná kategorie dané proměnné v literálu Klouzavý interval Řezy

Nastavení základních parametrů Antecedentu

Doporučené nastavení cedentů Zdroj: Adamek_4IZ210_...pdf

Definice Succedentu

Použití procedury ASSOC

Vysvětlení čtyřpolní tabulky   Suc Non Suc Ant a b Non Ant c d Spolehlivost pravidla = a / (a + b) Podpora pravidla (Base) = a

Nastavení kvantifikátorů

Pohled na celkové nastavení úlohy

Výsledky generování hypotéz

Zobrazení hypotéz

Zobrazení hypotéz

Zobrazení hypotéz exportovaných do schránky

Export do SEWEBAR

Export do SEWEBAR

Postřehy k realizaci úkolu Je pravděpodobné, že úvodní požadované nastavení parametrů neumožní vygenerování většího počtu hypotéz Expertimentální snižování parametrů má svá úskalí: Nízká podpoora => spolehlivá pravidla, která nelze generalizovat (min = 20) Nízká spolehlivost => neprůkazná pravidla Snížování parametrů je nutné okomentovat Teoretické pozadí procedury ASSOC Seznámení s nástrojem LISP Miner Demonstrace funkcionality nástroje na vzorových datech Detailní postup pro 3. úkol