Weka Antonín Pavelka Praktické použití. Weka - úvod kolekce algoritmů strojového učení pro dolování z dat University of Waikato, Nový Zéland 1993 TCL/TK,

Slides:



Advertisements
Podobné prezentace
Ing. David Pejčoch Tutorial
Advertisements

ASN - cvičení 2 : Ukázky práce s NN-Toolboxem
Uživatelská rozhraní Uživatelská rozhraní 9. cvičení.
Rozložení EEG elektrod (10-20 system)
● SWIG - Simplified Wrapper and Interface Generator ● + google a diskusní fóra ● nástroj zjednodušující (a sjednocující)
Desáté cvičení Java Core API Java Collection Framework JavaDoc.
XML, RDF a Dublin Core Petr Žabička
Strojové učení I (Mitchell93) učicí množina příkladů hledáme generalizaci učicí množiny ověřujeme na testovací množině pokrytí, přesnost, F-kriterium.
Návrh a optimalizace filtru OTA-C s využitím heuristických algoritmů ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Katedra teorie obvodů.
J a v a Začínáme programovat Lucie Žoltá. Odkazy - oficiální stránky (překladače, help, metody, vývojové prostředí NetBeans,...)
Adobe Dreamweaver CS4 Ing. Martin Dosedla.
Hana Kotinová Struktura a cíl práce Metody předzpracování dat Systémy předzpracování dat Historie vývoje DPT Jak program pracuje Budoucnost.
Rozumíme si s MDX Š.Havlíček.
© 2007 Cisco Systems, Inc. All rights reserved.Cisco Public ITE PC v4.0 Chapter 1 1 Operating Systems Networking for Home and Small Businesses – Chapter.
Motivační úvod do Matlabu
Čísla Desetinná čísla. čísla desetinná se v PC ukládají jiným způsobem než čísla celá – výpočty s nimi provádí dvě odlišné části procesoru při výpočtech.
Architektury a techniky DS Cvičení č. 9 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
UNIX — doplňky Informatika pro ekonomy II přednáška 9.
Dokumentace informačního systému
Anotace Žák v aplikací MS Word dokáže nastavit sloupce Autor Petr Samec Jazyk Čeština Očekávaný výstup Dokáže v aplikaci MS Word využít funkce sloupce.
Jak mravenč í kolonie dobývaj í znalosti Daniel Vodák a Luboš Popelínský Laboratoř dobývání znalostí Fakulta informatiky MU Brno
Jan Šaršon Milan Jaška 1Dobývání znalostí, MFF UK, 2008.
Metaučení Jakub Šmíd KTIML, MFF UK Školitel: Roman Neruda
Metodika objektového přístupu při tvorbě překladačů. Marek Běhálek Informatika a aplikovaná matematika FEI VŠB-TU Ostrava.
Modely uživatelských preferencí. Obsah Jak se vyjadřují preference Modely preferencí a jejich učení Model založený na atributech Kolaborativní filtrování.
Dílna Caché I. Praktické ukázky Tomáš Vaverka. Úvod Instalace Praktická ukázka 1 Praktická ukázka 2 Co zbývá?
1 Počítače a programování 1 13.přednáška. 2 Obsah přednášky Vstupy a výstupy – 1.část.
Klikací mapy v GIMPu Tvorba tzv. klikacích (obrázkových) map s pomocí grafického editoru GIMP Dostupné z Metodického portálu ISSN: ,
Formuláře Formuláře uzavíráme do elementů Formuláře uzavíráme do elementů a a Tyto elementy jsou součástí jazyka XHTML, to znamená, že při použití v PHP.
Autor: Jana Lískovcová Vedoucí práce: PaedDr. Petr Pexa.
InstantAtlas dynamické webové interaktivní atlasy.
ZÁPADOČESKÁ UNIVERZITA V PLZNI FAKULTA ELEKTROTECHNICKÁ KATEDRA TEORETICKÉ ELEKTROTECHKY Oddělení informatiky Java Micro Edition pro mobilní zařízení.
Analýza informačního systému. Podrobně zdokumentovaný cílový stav Paramentry spojené s provozem systému – Cena – Přínosy – Náklady a úspory – …
Basics of TOC and how to Analyze a Variety of Cases RIOP 2007 Skorkovský ESF -MU To nejlepší lze dosáhnout pouze s nasazením maximální vášně pro věc.
PHP Programy pro tvorbu WWW stránek - 01
Service layer. Service layer – úvod Problém  Vytvoření API aplikace  Odstínění bussiness logiky a transakčního chování od zbytku aplikace  Kam s aplikační.
Business Intelligence Pavel Cach
Testování s TestComplete
R - příklady Jan Knotek. I. Play or Not To Play OutlookTemp.HumidityWindyPlay sunnyhothighfalseno sunnyhothightrueno overcasthothighfalseyes rainymildhighfalseyes.
Úvod do XML 2. část Zdeněk Žabokrtský (s využitím materiálů z
Předzpracování nestrukturovaných dat pomocí jazyka Snowball , Brno Připravil: Bc. Pavel Řezníček.
Učící se algoritmy aplikované na předvídání vzniku plazmatu v tokamaku
Computer visualization of relational database in www environment Radek Horáček Supervisor: ing. J. Blažej,Phd. Bachelor Thesis, Department of Physical.
Weka Praktické použití Antonín Pavelka /celkem.
Diplomová práce | Návrh modulu GRASSu pro import dat ve výměnném formátu ISKN Martin Landa | 29. června 2005 Diplomová práce Návrh modulu GRASSu pro import.
Úvod do PostGIS Jan Ježek.
Statistika v SAS (SAS STUDIO)
Přednáška 2 Etapy výzkumu, přístup k datům
SOFTWARE I Operační software. BIOS Provádí testy hardwaru a jeho nastavení, konfiguraci celého počítače Provádí testy hardwaru a jeho nastavení, konfiguraci.
Internet publishing HTML documents writing basics Petr Zámostný room: A-72a phone.: 4222
Kognitivní systémy A6MX33KSY Brain Simulator - Úvod Jaroslav Vítků.
125MOEB 2009/20101(C) CVUT FSV KTZB KK Úvod do ESP-r.
Redakční systém – Content management system (CMS), publikační systém – Správa obsahu webu – Jednoduché publikování textů – Modulárnost (instalace doplňků)
Číslo projektu CZ.1.07/1.5.00/ Název školy Gymnázium Česká a Olympijských nadějí, České Budějovice, Česká 64 Název materiálu VY_32_INOVACE_IVT_1_KOT_17_ROZHRANI.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
XML a datový standard Zdeněk Jirkovec Softwarové Aplikace a systémy.
Analýza a interaktivní reporting nad medicinským kurikulem
Detekce malware na základě informací z PE hlaviček
Business Inteligence – úvod
Co s daty? Azure ML Jan
NÁZEV ŠKOLY: Střední odborná škola Net Office, spol. s r. o
Metody strojového učení
R nejen v SQL Serveru Jiří Neoral BI Data Architect
Zpracování dat Lenka Radová
NÁZEV ŠKOLY: Střední odborná škola Net Office, spol. s r. o
Z8119 Vyhledávání znalostí v prostorových datech
Introduction to MS Dynamics NAV XVIII. (Reminders)
Web Application Scanning
Pokročilé neparametrické metody Validační techniky
Transkript prezentace:

Weka Antonín Pavelka Praktické použití

Weka - úvod kolekce algoritmů strojového učení pro dolování z dat University of Waikato, Nový Zéland 1993 TCL/TK, C, Makefiles 1997 rozhodnutí přejít na čistou Javu integrována – RapidMiner – Petaho (systém business intelligence) GNU General Public License 2

Ovládání spuštění java -Xmx1024m -jar weka.jar grafické rozhraní – Explorer – jednotlivé činnosti na kliknutí – Experimenter – systematické srovnání – Knowledge flow – činnosti jako tok příkazový řádek Java API 3

Ukázka – grafické rozhraní... 4

... příkazový řádek... java –classpath weka.jar weka.classifiers.bayes.NaiveBayes –t data/iris.arff 5

... Java API 6

1. Attribute-Relation File Format (ARFF) 7 ARFF spambase % spam, word_freq_make 'char_freq_#‘ {spam, 0,0.64,0.64,spam 0.21,0.28,0.5,spam 0.06,0,0.71,ham Chybějící hodnoty 4.4,?,1.5,?,Tolkien LCC LCSH AG5, 'Encyclopedias and dictionaries.;Twentieth century.‚ timestamp DATE "yyyy-MM-dd " :12:12" " :59:55" Řídký formát 0, X, 0, Y, "class A" {1 X, 3 Y, 4 "class A"} 0, 0, W, 0, "class B" {2 W, 4 "class B"}

2. Předzpracování dat 8

Histogramy 9 užitečný číselný atributpodezřelý číselný atribut binární cílový atribut 20-hodnotový atribut

Filtry 10 Unsupervised Remove –V –R 1-5,8 (V = inverze, zachovej pouze tyto atributy) Discretize – některé algoritmy nepracují s čísly – urychlení – někdy i zvýšení přesnosti StringToWordVector Supervised Discretize AddClassification AttributeSelection Multifilter – aplikuje několik filtrů po sobě

StringToWordVector text class ' \n\t \n\t\t Dumbek\'s Rand '<!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4. ' \r\n\r\n \r\n<meta name=\"descri '<!DOCTYPE html PUBLIC \"-//W3C//DTD XHTML class ago align= all always business but button {1 1,3 1,4 1,11 1,12 1,13 1,14 1, {10 1,34 1,37 1,49 1,50 1,53 1, {2 1,5 1,6 1,7 1,8 1,9 1,31 1,32 1,

Tab Classify - možnosti 12 textový výstup vizualizace klasifikátoru More options – Output predictions parametry klasifikátoru – SMO - buildLogisticModels

Tab Classify - algoritmy 13 rules – ZeroR bayes – NaiveBayes – Adaptive One Dependence Estimators (AODE) functions – support vector machine: SMO, SMOreg, LibSVM – neuronová síť: MultilayerPerceptron trees – J48, RandomForest meta – boosting, bagging – FilteredClassifier, CVParameterSelection, AttributeSelectedClassifier, CostSensitiveClassifier

Optimalizace parametrů 14 meta.CVParameterSelection –P "C "... Cross-validation Parameter: '-C' ranged from 1.0 to with 20.0 steps Classifier Options: -C

Vážení chyb 15 TP Rate meta.CostSensitiveClassifier % Rows Columns 2 % Matrix elements cena za špatně klasifikovaný P je 2x větší než za N

Tab Select attributes 16 metoda hodnocení podmnožiny atributů – CfsSubsetEval – prediktivní schopnost jednotlivých atributů a jejich redundance – ClassifierSubsetEval, WrapperSubsetEval nebo metoda hodnocení jednotlivých atributů – ChiSquaredAttributeEval prohledávací metoda – ExhaustiveSearch, BestFirst, GeneticSearch validace – křížová – filtr AttributeSelectedClassifier

Experimenter 17

Knowledge Flow 18

Vizualizace hranic 19 jen pro nominální třídu

Zdroje 20 Knihy WEKA Manual for Version Data Mining: Practical Machine Learning Tools and Techniques Web