1 Předzpracování dat pro data mining: metody a nástroje Olga Štěpánková, Zdeněk Kouba, P. Mikšovský, P. Aubrecht Gerstnerova laboratoř pro inteligentní.

Slides:



Advertisements
Podobné prezentace
Sedm základních nástrojů managementu jakosti
Advertisements

Stručný úvod do UML.
PrecisPlanner 3D Software pro plánování přesnosti měření v IG
Přednáška č. 1 Úvod, Historie zpracování dat, Základní pojmy
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Databáze.
Business intelligence
 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.
Softwarový systém DYNAST
Možnosti vizualizace dat a informací v medicíně
– základní matematické operace se signály (odečty, podíly...) – složitější operace se sadou datových souborů – tvorba maker pro automatizaci zpracování.
Podnikový systém SEWSS Jakub Charvát STATISTICA Enterprise-wide SPC System.
Definování prostředí pro provozování aplikace dosud jsme řešili projekt v obecné rovině aplikace bude ovšem provozována v konkrétním technickém a programovém.
6. Řízení a monitoring procesů. Řízení, regulace, měření, monitoring, automatizaceve farmaceutickém průmyslu Řídicí systémy Měřicí a monitorovací systémy.
Hana Kotinová Struktura a cíl práce Metody předzpracování dat Systémy předzpracování dat Historie vývoje DPT Jak program pracuje Budoucnost.
Microsoft Access Prezentace základních uživatelských nástrojů
Tabulkový procesor.
D ATOVÉ MODELY Ing. Jiří Šilhán. D ATABÁZOVÉ SYSTÉMY Patří vedle textových editorů a tabulkových kalkulátorů k nejrozšířenějším představitelům programového.
Školení správců II. Petr Pinkas RNDr. Vít Ochozka.
METADATA „Tvoří velice důležitou složkou geodat (prostorově lokalizovatelných dat) “ Renata Hrabinová.
Systémy pro podporu managementu 2
Relační databáze.
Referát č. 17 Tabulkový procesor
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Podnikové informační systémy C7 – Data Mining a získávání znalostí České vysoké učení technické v Praze Fakulta strojní ústav Řízení a ekonomiky podniku.
Informatika pro ekonomy II přednáška 10
Databázové systémy Přednáška č. 6 Proces návrhu databáze.
Definice, druhy, chyby, abstrakce
Simulační modely a programové vybavení. Vývoj simulačních programů  Původně pouze strojový kód –Příliš dlouhé, náročné na programátora, obtížné hledání.
Dokumentace objektů a zveřejnění funkcí
Architektury a techniky DS Cvičení č. 9 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Srovnání standardů CEN, FGDC a ISO pro metadata Ing. Jan Růžička Institut ekonomiky a systémů řízení, odd.GIS VŠB-TU Ostrava, HGF tř. 17.listopadu
Dokumentace informačního systému
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
2008/2009 REPORTING Tereza Mulačová Česká zemědělská univerzita v Praze Tereza Řezníčková Provozně ekonomická fakulta Marek Tláskal obor Veřejná správa.
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Technická diagnostika "dia-gnozis" - "skrze poznání" Zkoumá technické objekty za účelem posouzení jejich technického stavu, tj. schopnosti vykonávat určenou.
Databázové modelování
Základy zpracování geologických dat
Databázové systémy Informatika pro ekonomy, př. 18.
Databáze velké množství dat pevně dané struktury
Metrologie   Přednáška č. 5 Nejistoty měření.
Datovýsklad Datový sklad V budoucích službách státního archivu.
14. června 2004Michal Ševčenko Architektura softwarového systému DYNAST Michal Ševčenko VIC ČVUT.
Databázové systémy Datové modely.
Předzpracování nestrukturovaných dat pomocí jazyka Snowball , Brno Připravil: Bc. Pavel Řezníček.
11/2003Přednáška č. 41 Regulace výpočtu modelu Předmět: Modelování v řízení MR 11 (Počítačová podpora) Obor C, Modul M8 ZS, 2003, K126 EKO Předn./Cvič.:
filtrování a řazení dat, podmíněné formátování,
Databázové systémy Úvod, Základní pojmy. Úvod S rozvojem lidského poznání roste prudce množství informací. Jsou kladeny vysoké požadavky na ukládání,
Perzistence XML dat Kamil Toman
Geografické informační systémy pojetí, definice, součásti
Databáze MS ACCESS 2010.
Využití sestavy Zobrazení a typy Části sestavy Vytvoření sestavy Ovládací prvky.
Úvod do databází zkrácená verze.
● Databaze je soubor dat,slouží pro popis reálného světa(např.evidence čkolní knihovny..) ● Relační databaze je databáze založená na relačním modelu.
České vysoké učení technické v Praze Fakulta dopravní Ústav dopravní telematiky Geografické informační systémy Doc. Ing. Pavel Hrubeš, Ph.D.
SOFTWAROVÁ PODPORA PRO VYTVÁŘENÍ FUZZY MODELŮ Knihovna fuzzy procedur Ing. Petr Želasko, VŠB-TU Ostrava.
XML a datový standard Zdeněk Jirkovec Softwarové Aplikace a systémy.
Výukový materiál zpracovaný v rámci projektu: Střední zdravotnická škola ÚO – šablony Registračn í č í slo projektu: CZ.1.07/1.5.00/ Š ablona: III/2.
Databáze MS ACCESS 2010.
NÁZEV ŠKOLY:SOŠ Net Office, spol. s r.o. Orlová Lutyně
Ukládání dat biodiverzity a jejich vizualizace
Geografické informační systémy
Dobývání znalostí z databází znalosti
Databázové systémy přednáška 13 – Analýza a reporting
Servisní aplikace přístupového systému
Informatika pro ekonomy přednáška 8
Spojitá a kategoriální data Základní popisné statistiky
Geografické informační systémy
Základy statistiky.
Transkript prezentace:

1 Předzpracování dat pro data mining: metody a nástroje Olga Štěpánková, Zdeněk Kouba, P. Mikšovský, P. Aubrecht Gerstnerova laboratoř pro inteligentní rozhodování a řízení České vysoké učení technické v Praze

2 Získávání znalostí z dat (KDD) Cíl: částečná automatizace procesu získání zajímavých vzorů chování z reálných dat: tvorba jejich modelů - např. pomocí nástrojů strojového učení Aplikace: průmysl (diagnostika poruch), obchod (marketing, bankovnictví), věda (charakterizace karcinocenních látek),... Nové slibné odvětví SW průmyslu, jehož cílem je využít existující data pro zlepšení rozhodovacích procesů Problémy reálných dat? Data nejsou sbírána jako zdroj trénovacích příkladů, ale především kvůli podnikové dokumentaci a archivaci. Z tohoto hlediska bývá sběr i uložení optimalizováno.

3 Problémy reálných dat? Data obsahují špatné údaje způsobené chybami měřicích přístrojů i lidské obsluhy Nevyplněné údaje Data jsou popsána pomocí příliš mnoha atributů - není zřejmé, které z nich jsou pro řešení zvolené úlohy relevantní. Úspěch modelování závisí na volbě vhodné množiny atributů (PAC učení) Data mají formu složitého relačního schématu, nikoliv jediné tabulky předpokládané atributovými metodami strojového učení Příprava dat nabízí různé způsoby, jak se s těmito problémy vyrovnat. První pokus o přípravu dat nebývá ten nejsprávnější - nutné opakování

4 CRISP: metodika KDD Zadání 2. Porozumění datům 3. Příprava dat 5. Vyhodnocení4. Modelování 6. Použití 1. Zadání

5 Časové nároky na přípravu dat?

6 Úkoly předzpracování dat 1.Chyby v reálných datech –Na chyby je třeba upozornit a přijmout rozhodnutí, jak s nimi naložit (například doplnit údaje ve spolupráci s expertem z oboru aplikace nebo naopak využít statistických zákonitostí). –U některých atributů se stává, že vyplnění údaje je skoro výjimkou – mluvíme pak o řídce (sparse) obsazených atributech 2.Množina vlastností (atributů) –Bohatost dat (počet dimenzí) má zásadní vliv i pro úspěch použití technik strojového učení, neboť s dimenzí exponenciálně rostou i nároky na počet trénovacích příkladů – snaha zredukovat –Doplnění výchozích dat o nové informace na základě dalších datových zdrojů, 3.Velikost celého výchozího datového souboru - výběr podsouborů pro modelování 4.První pokus o přípravu dat nebývá ten nejsprávnější - nutné opakování

7 Analýza a úprava jednotlivých atributů I. Zpráva o stavu proměnných –typ (spojitá X diskrétní) –rozsah definičního oboru (počet použitých hodnot) –rozsah a frekvence výskytů (histogram) –typ rozdělení a jeho statistické charakteristiky Upozornit na –osamělé mimořádné hodnoty (outliers) –téměř konstantní atributy (možné vynechat) –nevyplněná datová pole –znečištění dat data neodpovídají deklarovanému formátu hodnoty neodpovídají deklarované množině

8 Analýza a úprava jednotlivých atributů II. Příklady úprav Náhrada chybějících údajů - provádí se tak, aby zůstala zachována hodnota směrodatné odchylky uvažovaného atributu Úprava rozsahu hodnot atributů pomocí logistické transformace (velmi důležité v každé metodě, která počítá se vzdáleností objektů - např. CBR, nejbližší sousedi, shlukování), g (x) = (1 + e –a - bx ) –1

9 Analýza a úprava jednotlivých atributů III. Monotónní atributy – představují obvykle jednoznačnou identifikaci pro uvažované objekty, např. pořadové číslo měření, číslo bankovního účtu. Rostou bez omezení a při tom jejich přímá hodnota jako taková nemá pro vytvoření modelu význam. Řady – tvořené hodnotami veličin, které jsou pravidelně měřeny a zaznamenávány (např. EKG, burzovní koeficienty). Vždy jsou vztaženy k jediné monotónní veličině, která slouží jako index. –často jako index slouží čas -> časová řada –Prostředky k analýze: Fourierova analýza Vlnková (wavelet) transformace 1 umožňuje získání časově- frekvenčního popisu signálu 1 Louis, A., K., Maas, P., Rieder, A.: Wavelets: Theory and Applications. Wiley, 1997.

10 Úpravy a analýza dat ve stav.prostoru I. Příklady úprav Snížení dimenze –vynecháním konstantních atributů atributů řídce obsazených atributů s duplicitní informací (rok narození X věk, apod.) –sloučením atributů řídce obsazených – z několika řídce obsazených atributů je možné zřetězením vytvořit jeden nový (PVP - present value pattern)

11 Úpravy a analýza dat ve stav.prostoru II. Příklady úprav Zvýšení dimenze –obohacení doplněním údajů z jiných zdrojů (např. meteorologická měření, demografické údaje, apod.) –rozšíření –přidání odvozených atributů (např. pohlaví z rodného čísla, apod.) –„otočení“ dat (reverse pivoting) - nový atribut a n+1 přebírá údaj z objektu následujícího. Pro každý objekt i platí a n+1 (i) = a n (i+1).

12 Úpravy a analýza dat ve stav.prostoru III. Příklady úprav Agregace dat - použití metod datových skladů. údaje o více objektech obsažené na několika řádcích jsou vztaženy k jedinému obecnějšímu objektu (tvoří tedy v novém souboru jedinou řádku). Vizualizace – např. umístění datového souboru ve stavovém prostoru úlohy, přirozené shluky, nepravidelné deformace,... Statistické přístupy snižování dimenze –podmíněná entropie –CHAID (Chi-square Automatic Interaction Detector) –hledání hlavních komponent (návrh vhodné lin. kombinace) Využití neuronových sítí - Řídce propojená autoasociativní neuronová síť (Sparcely Connected Autoasociative Neural Net: SCANN) Pozor na přídání anachronických atributů !!!

13 Úprava souborů pro modelování I. Příklady úprav Hlavní zásada: každý nový soubor musí s rozumnou dávkou důvěry zachovávat původní pestrost či rozložení výchozího souboru. Vytvoření trénovacích a testovacích dat Vzorkování dat (sampling) Navýšení vlastnosti v trénovacích datech (pro vzácně se vyskytující hodnoty atributu) –trénovací množina jako sjednocení 2 nezávislých podmnožin, z nichž v první všechny objekty mají uvažovanou vzácnou hodnotu atributu, v druhé nikoliv –namnožení dat s požadovanou hodnotou atributu přidáním „bílého šumu“

14 Předzpracování dat pro data mining: metody a nástroje SumatraTT

15 Úvod Čeho jsme chtěli dosáhnout? Snížení pracnosti nezbytné k: opakovaným činnostem –s využitím standardizace a automatizace  efektivní opakované použití vyvinutých komponent vytváření dokumentace: zdlouhavé, ale nezbytné dokumentování experimentu tak, aby jej bylo možné zopakovat např. na testovacích datech  2 Prepared Information Environment (PIE) Jak? SumatraTT Univerzální, metadaty řízený, transformační nástroj Postaven nad skriptovacím jazykem orientovaným na datové transformace, syntaxí podobným jazyce Java K vytváření datové trasformace využívá knihovnu šablon (templates) Podporuje automatickou dokumentaci datové transformace 2 Pyle, D.: Data Preparation for Data Mining. Morgan Kaufmann, California, 1999.

16 Předzpracování dat pomocí SumatraTT Neznámá data –zjistit strukturu –prohlédnout hodnoty Navrhnout převod Dokumentovat Spustit (vícenásobně)

17 Datový zdroj Součástí definice je i typ zdroje (lze změnit) –textový soubor –SQL (ODBC, ADO) –regulární výraz (podobně jako Perl) –JavaDB (vzdálené JDBC, komprese, šifrování) –Prolog –WEKA Unifikovaný popis atributů (fieldů) Upřesnění atributu (délka, SQLType, formát) Existuje sada automatických wizardů

18 Parametry datových zdrojů typ parametry DS* seznam atributů parametry atributu * podle typu (jméno souboru a oddělovač, SQL tabulka, dotaz)

19 SumatraScript Univerzální interní skriptovací jazyk Veškeré zpracování v jazyku SumatraScript Synatxí podobný jazyku Java, přístup k datovým zdrojům SumatraTT vlastně pouze poskytuje sady funkcí a interních informací (metadat) Kvůli opakujícímu se kódu byl jazyk rozšířen o možnost generování části svého kódu – vznikla makra

20 Šablony transformací Způsob zpracování dán šablonou (kostra programu) + Specifikace pomocí parametrů –vstupní, výstupní datový zdroj –vnitřní kód –délka udržované historie –volitelná akce (RemoveDuplicities) –...

21 Dostupné šablony I. TableCopy – prosté kopírování, převod mezi formáty, filtrování, výpočet nových atributů Table1toN – rozdělení záznamu na několik, spojení TableSample – náhodné rozdělení DS na dva (trénovací, testovací) FairSubset – podmnožina o přesně daném počtu prvků (nebo v procentech)

22 Dostupné šablony II. TableReport – textová zpráva (hledání chyb) CheckDS – kontrola čitelnosti datového zdroje gnuplot – vykreslení dat pomocí gnuplot, 2D i 3D RemoveDuplicities – zpracování duplicit v SQL databázích CrossTable – podpora (poloautomatická) pro křížové tabulky ExecSQL – spustí SQL příkaz

23 SumatraGUI zadávání metadat textově příliš složité jednoduchý grafický návrh

24 Vizualizace – statická

25 Vizualizace – interaktivní

26 Další nástroje

27 Dostupnost SumatraTT verze 1 –dostupná na adrese – Instalace obsahuje i sadu šablon pro běžnou práci i pro složitější zpracování

28 Budoucí vývoj I. SumatraTT verze 1 –omezené možnosti rozšíření –dualita řešení: C++ a Java SumatraTT verze 2 –pouze v Javě –důraz na uživatelsky přívětivé GUI –založeno na standardech – XML, JDBC, CORBA

29 Ukázka verze 2 – návrh transformace

30 Ukázka verze 2 - běh transformace

31 SumatraTT verze 1 –dostupná na adrese – Instalace obsahuje i sadu šablon pro běžnou práci i pro složitější zpracování Dostupnost