Hana Kotinová 14.9.2011. Struktura a cíl práce Metody předzpracování dat Systémy předzpracování dat Historie vývoje DPT Jak program pracuje Budoucnost.

Slides:



Advertisements
Podobné prezentace
VÝVOJ PROGRAMOVACÍCH JAZYKŮ PERSPEKTIVY ELEKTRONIKY 3. Celostátní seminář, 18. března 2003 Ing. Pavel Pokorný UNIVERZITA TOMÁŠE BATI VE ZLÍNĚ Fakulta technologická.
Advertisements

Jak vytvořit prezentaci Vytvořila firma: A-B Spektrum, počítačové a vzdělávací kurzy.
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.
SOFTWARE operační systémy
Semestrální práce KIV/PT Martin Kales Hana Hůlová.
Softwarový systém DYNAST
Průvodce pro prostorové dotazy v systému PostGIS (plugin pro OpenJUMP) Vedoucí: Ing. Jan Růžička.Ph.D. Konzultant: Ing. Aleš Daněk Diplomová práce.
Albertina a Report Mgr. Libuše Simandlová
Rozložení EEG elektrod (10-20 system)
Úvod do databází Databáze.
ČVUT Praha, Fakulta elektrotechnická Diplomová práce Informační systém házenkářského turnaje Petr Plodík.
Setkání klinických uživatelů 2010 Petr Folwarczný.
3MA381 – Manažerská informatika Lucie Bjačková. Co je to LaTeX?  Systém určený k sazbě vědeckých a matematických dokumentů  Postaven na typografickém.
A1PRG - Programování – Seminář Ing. Michal Standardní knihovní funkce pro práci se soubory 13 Verze
Geo-informační systémy
Jak vytvořit prezentaci
Analýza informačního systému
Algoritmizace a základy programování
Uložení a analýza bodového mračna bodů v Oracle Spatial Fakulta aplikovaných věd / Katedra matematiky Západočeská univerzita v Plzni Bc. Michal.
E-learning ve výuce na SŠ
Tvorba dokumentů – kritéria Obsah a forma –aktuálnost a správnost informací, variabilní data, –forma adekvátní příjemci, estetika, –účelná struktura, členění.
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
6. cvičení Polymorfismus
Reporting Ing. Jan Přichystal, Ph.D.. Úvod Uživatelé obvykle přistupují k DW pomocí BI aplikace Většina využívá předdefinované reporty Poskytují standardizovaný.
OSNOVA: a)Programování se soubory b)Záloha databáze v souboru c) Příklady Jiří Šebesta Ústav radioelektroniky, FEKT VUT v Brně Počítače a programování.
Úprava grafických objektů –obrázků ve Wordu 2010.
KIV/PPA1 cvičení 8 Cvičící: Pavel Bžoch. Osnova cvičení Objekty v Javě Třída Konstruktor Metody Metody a proměnné třídy x instance Program sestávající.
OSNOVA: a) Úvod do OOPb) Třídy bez metod c) Třídy s metodamid) Konstruktory a destruktory e) Metody constf) Knihovní třídy g) Třídy ve tříděh) Přetížení.
Jak vytvořit prezentaci
IB111 Programování a algoritmizace
Power Point– sestavujeme prezentaci
Dokumentace informačního systému
Ukládání heterogenních dat pomocí rozvolněných objektů Michal Žemlička.
Analýza infromačního systému. Matice afinity ISUD matice – Insert (vkládání dat) – Select (výběr dat) – Update (aktualizace dat) – Delete (vymazání dat)
organizační struktury Implementace EOS III na Olomouckém kraji Pro:Krajský rok informatiky 2005 Autor:Jan Kadlec Datum:
Přednáška č. 1 Proces návrhu databáze
Jak vytvořit prezentaci Vytvořila firma: A-B Spektrum, počítačové a vzdělávací kurzy Navigace.
MS PowerPoint Prezentační manažer Kapitola 12.1 (Sestavení z externích zdrojů)
Databázové modelování
Metodika objektového přístupu při tvorbě překladačů. Marek Běhálek Informatika a aplikovaná matematika FEI VŠB-TU Ostrava.
Zpracování dopravních dat v prostředí prostorové databáze
1 Počítače a programování 1 13.přednáška. 2 Obsah přednášky Vstupy a výstupy – 1.část.
Databáze Lokální systémy a SQL servery VY_32_INOVACE_7B10.
Vzdálené počítačové sítě a programování v prostředí Windows Okruhy ke zkoušce z předmětu: Ing. Zdeněk Votruba LVALVA.
Využití ontologií při dobývání znalostí z databází Hana Češpivová.
SOFTware Adresář, soubor, OS Informatika – 6. třída Bc. Josef Štainer
Analýza informačního systému. Podrobně zdokumentovaný cílový stav Paramentry spojené s provozem systému – Cena – Přínosy – Náklady a úspory – …
Jak vytvořit prezentaci Vytvořila firma: A-B Spektrum, počítačové a vzdělávací kurzy.
Excel export a import dat. Import ze souboru.
14. června 2004Michal Ševčenko Architektura softwarového systému DYNAST Michal Ševčenko VIC ČVUT.
5. Statistica Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová.
Název školyStřední odborná škola a Gymnázium Staré Město Číslo projektuCZ.1.07/1.5.00/ AutorIng. Ivana Brhelová Název šablonyIII/2.
Možnosti využití programu HYDATA. Co je HYDATA? program pro tvorbu databáze dat a jejich dalšího zpracování –(srážky, průtok, výpar a další meteorologická.
České vysoké učení technické Fakulta elektrotechnická Datové typy, výrazy vstup, výstup Jazyk JAVA A0B36PRI - PROGRAMOVÁN Í v1.02.
Návrh a implementace algoritmů pro údržbu,
Prezentace Ing. Miluše Sedláčková.
Postup při empirickém kvantitativním výzkumu
Perzistence XML dat Kamil Toman
Programování v MATLABu © Leonard Walletzký, ESF MU, 2000.
Jak vytvořit prezentaci Vytvořila firma: A-B Spektrum, počítačové a vzdělávací kurzy.
Geografické informační systémy pojetí, definice, součásti
Algoritmizace a programování Algoritmy 2 – Vývojové diagramy (sekvence)
ORSOFT RADNICE OPEN – ÚVODNÍ SEZNÁMENÍ Petra Hoffmanová.
Databáze MS ACCESS 2010.
Ukládání dat biodiverzity a jejich vizualizace
Databázové systémy a SQL
5. Statistica Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová.
NÁZEV ŠKOLY: Střední odborná škola Net Office, spol. s r. o
Analýza informačního systému
Transkript prezentace:

Hana Kotinová

Struktura a cíl práce Metody předzpracování dat Systémy předzpracování dat Historie vývoje DPT Jak program pracuje Budoucnost – plány na vylepšení Problémy Závěr

 Úvod  Dobývání znalostí z databází  Problémy fáze předzpracování  Algoritmy předzpracování dat  Vybrané systémy pro předzpracování dat  Data preprocessing tool  Závěr  Cíl práce – vytvoření programu  Osobní cíl – zdokonalení v programování řešením rozsáhlejšího projektu

 Transformace dat do strukturované podoby ve formě tabulky  Nastavení jednotného formátu pro data z různých zdrojů  Spojení více tabulek do jedné  Ošetření chybějících hodnot  Výběr atributů  Výběr objektů  Rozdělení dat  Diskretizace a seskupování hodnot

 Transformace dat do strukturované podoby ve formě tabulky  Spojení více tabulek do jedné  Nastavení jednotného formátu pro data z různých zdrojů  Ošetření chybějících hodnot  Výběr atributů  Výběr objektů  Rozdělení dat  Diskretizace a seskupování hodnot

Mining Mart – Case Editor a Koncept Editor SumatraTT

DPT1 Zdrojové kódy psané v notepadu => Kurz 4IT251 a přechod k BlueJ

DPT2 po spuštěníDPT2 po načtení souboru

 Logování operací  Procedury diskretizace – doplnění o class sensitive crisp a class sensitive fuzzy  Standardní aplikace s více okny nebo řešení pomocí karet  Zpracování běžných databázových souborů, nejen čistý text v podobě.csv souboru.  Grafy

 Programátorská zdatnost  Práce na notebooku  (parametry: 14“ obrazovka, 256MB RAM, Pentium III, 750 MHz)  Havárie disku na začátku práce  Čas

Mining Mart a SumatraTTDPT  grafické systémy  práce velkého týmu  Pracují s databázemi  Složité  Využívá jen běžné grafické rozhraní  1 člověk  Pracuje pouze s textovými soubory (.csv)  Jednodušší

 Vývoj aplikace Data preprocessing tool bude pokračovat  Zájem o využití aplikace v České spořitelně, a.s.  Další verze budou dostupné na

Prostor k dotazům …

 Na straně 8 je uvedeno, že z dat pro analýzu je nutné vytvořit pouze jednu (databázovou) tabulku. Opravdu neexistují data-miningové procedury, které mohou pracovat s více než jednou tabulkou najednou? Neexistují dokonce procedury, které pracují s daty v jiné podobě než tabulkové (např. se síťovými grafy, obrázky…)? Jestli ano, tak uveďte příklady. Jestli ne, tak zdůvodněte, proč nemohou existovat.  Použití jedné tabulky je nejčastější, existují však i procedury prostorového data miningu  Podporováno např. Oracle Data Miner, MS SQL Server Analysis Services

 Jsou v sytému DPT implementovány nějaké operace, které nenalezneme v systémech SumatraTT nebo MiningMart?  Procedura Noise Evaluation  Vysvětlete detailně použitý algoritmus pro funkci Noise Evaluation.

 Účel:zjistit počet kontradikcí v datech. Kontradikcemi se myslí objekty, které mají stejné hodnoty vstupních atributů, ale liší se v cílovém atributu. Pokud se takové objekty vyskytnou, klasifikátor je zařadí to stejné(majoritní) třídy; objekty patřící do ostatních tříd jsou kontradikce.  Vstup: datová tabulka  Výstup: počet kontradikcí, relativní chyba (error) a relativní správnost (accuracy) kterou lze dosáhnout  Parametry: cílový atribut (class), informace, který atribut je váha objektů  Algoritmus:  spočítat počty výskytů objektů, které se shodují v hodnotách vstupních atributů (je-li použita váha objektů, počítá se počet objektů z těchto vah) a jejich rozdělení do tříd  Pro každý objekt spočítat max. možnou správnost (accuracy) jako počet (opět s přihlédnutím k váze) objektů v majoritní třídě  Spočítat celkovou max. možnou správnost jako (  objekty správnost objektu)/počet_objektů a min. možnou chybu (error) neboli podíl šumu jako 1 – max. možná správnost

public class NoiseEvaluation { public NoiseEvaluation() { } DataKapsa datoveStru ktury; public void noise() { datoveStruktury = datoveStruktury.getInstance(); TreeMap mo = new TreeMap (); TreeMap moc = new TreeMap (); TreeMap mov = new TreeMap (); for (int x = 2; x <= datoveStruktury.pocetRadkuSouboru ; x++) { String a = ""; String b = "" + datoveStruktury.stavData[x][datoveStruktury.vybranyCil];; for (int y = 1; y <= datoveStruktury.pocetSloupcuSouboru; y++) { if (y!= datoveStruktury.vybranyCil && y!= datoveStruktury.vybranaVaha) { a = a + datoveStruktury.stavData[x][y] + ";"; } Double freq = mo.get(a); Double freqv = mov.get(a); if (datoveStruktury.vybranaVaha == 0) { mo.put(a, (freq == null) ? 1 : freq + 1); mov.put(a, (freq == null) ? 1 : freq + 1); } else { mo.put(a, (freq == null) ? 1 : freq + 1); mov.put(a, (freqv == null) ? Double.parseDouble(datoveStruktury.stavData[x][datoveStrukt ury.vybranaVaha]) : freqv + Double.parseDouble(datoveStruktury.stavData[x][datoveStrukt ury.vybranaVaha])); } a = a + b; freq = moc.get(a); moc.put(a, (freq == null) ? 1 : freq + 1); } // end for x

 if ((mo.size() < moc.size()) ) {  moc.clear();  Iterator ukazovatko = mo.keySet().iterator();  while(ukazovatko.hasNext()) {  String klic = ukazovatko.next();  if (mo.get(klic) < 2) {  ukazovatko.remove();  //mov.remove(klic);  }  } // while ukazovatko  double totalAccuracy = 0;  double tAErr = 0;  Set > mnozinaDvojic = mo.entrySet();  for(Map.Entry dvojice : mnozinaDvojic) {  Grafika.oknoVysledku.setText(Grafika.oknoVysledku.getText() + "\n" + "Object: " + dvojice.getKey() + "\n" + " Total in all classes: " + mov.get(dvojice.getKey()).toString());  totalAccuracy = totalAccuracy + mov.get(dvojice.getKey());  }  if (datoveStruktury.sumaVah != 0) {  totalAccuracy = (double)Math.round(100 - (totalAccuracy * 100 / datoveStruktury.sumaVah )) / 100;  }  else {  totalAccuracy = (double)Math.round(100 - (totalAccuracy * 100 / (datoveStruktury.pocetRadkuSouboru - 1) )) / 100;  }  tAErr = (double)Math.round((1-totalAccuracy) * 100) / 100;  Grafika.oknoVysledku.setText(Grafika.oknoVysledk u.getText() + "\n" + "maximum accuracy: " + totalAccuracy + ", error: " + tAErr);  }  else {  Grafika.oknoVysledku.setText(Grafika.oknoVysledk u.getText() + "\n" + "No same objects in different classes, maximum accuracy: 1.0, error: 0.0" );  }  } // noise  } // class