Metaučení Jakub Šmíd KTIML, MFF UK Školitel: Roman Neruda

Slides:



Advertisements
Podobné prezentace
Anglicky jsem se rozhodl učit před půl rokem. I took up English six months ago (decided to learn).
Advertisements

Mgr. Marek Pavlů Katedra Experimentální Fyziky 1 Modelování a simulace, Mgr. Marek Pavlů.
PŘÍTOMNÝ ČAS PROSTÝ.
TEORIE HER III. Hry a jejich bohové CO BYLO MINULE.
A weak fuzzy description logic with aggregation Peter Vojtáš na Pracovním semináři pořádaném Knowledge Engineering Group Knowledge Engineering.
Association for Computing Machinery - Založena v r Zaměření informační technologie - Podporující publikace počítačové literatury (portál ACM) -
Jiří Fejfar Perceptron Jiří Fejfar
Evaluation of Performance Based on Information in Documents‘ Databases Hana Pessrová Tomáš Cahlík.
O metodě konečných prvků Lect_6.ppt M. Okrouhlík Ústav termomechaniky, AV ČR, Praha Liberec, 2010 Pár slov o Matlabu a o zobrazení čísla na počítači.
PRESENT SIMPLE FOR ELEMNTARY STUDENTS Author: Mgr. Jan Hájek.
© 2007 Cisco Systems, Inc. All rights reserved.Cisco Public 1 Application Layer Functionality and Protocols Network Fundamentals – Chapter 3.
Dolce: Databáze lokálních konformací DNA
1 / 2X36DSA 2005The complexity of different algorithms varies: O(n), Ω(n 2 ), Θ(n·log 2 (n)), … Různé algoritmy mají různou složitost: O(n), Ω(n 2 ), Θ(n·log.
Modely uživatelských preferencí. Obsah Jak se vyjadřují preference Modely preferencí a jejich učení Model založený na atributech Kolaborativní filtrování.
Nemusela se vrátit brzo she didn't have to be back early.
1 Škola: Gymnázium, Brno, Slovanské náměstí 7 Šablona: III/2 – Inovace a zkvalitnění výuky prostřednictvím ICT Název projektu: Inovace výuky na GSN prostřednictvím.
y.cz Název školyStřední odborná škola a Gymnázium Staré Město Číslo projektuCZ.1.07/1.5.00/ AutorMgr. Roman Chovanec Název šablonyIII/2.
Pracovní list - pro tisk Vloženo z stress.pptx Začátek.
Výukový materiál zpracovaný v rámci projektu Označení:Sada: 3 Ověření ve výuce:Třída: Datum: Registrační číslo projektu:CZ.1.07/1.5.00/ VY_32_INOVACE_ANJ_VL_3_11.
Označení DUM 13 _ 07 _ Pl _ DUM Autor Příjmení a jméno: Pavelková Irena, Bc. Škola: Základní škola a Mateřská škola Štěpánkovice, příspěvková organizace.
Název a adresa školy: Střední odborné učiliště stavební, Opava, příspěvková organizace, Boženy Němcové 22/2309, Opava Název operačního programu:OP.
Datamining v houbách Miroslav Škrabal, Tomáš Trantýr.
Registrační číslo projektu:CZ.1.07/1.5.00/ Šablona/číslo materiálu:III/2 VY_32_INOVACE_ANJ460 Jméno autora:Mgr. Soňa Nekvindová Třída/ročník2. ročník.
NÁZEV ŠKOLY: ZŠ PODBOŘANY, HUSOVA 276, OKRES LOUNY AUTOR: MGR. JAROSLAVA KULÁČKOVÁ NÁZEV: VY_32_INOVACE_618_ANGLICKÝ JAZYK_MĚSTO TEMA: Město ČÍSLO PROJEKTU:
Weka Antonín Pavelka Praktické použití. Weka - úvod kolekce algoritmů strojového učení pro dolování z dat University of Waikato, Nový Zéland 1993 TCL/TK,
Jméno autora: Mgr. Mária Filipová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_09_AJ_EP Ročník: 1. – 4. ročník Vzdělávací oblast:Jazyk a jazyková.
Digitální výukový materiál zpracovaný v rámci projektu „EU peníze školám“ Projekt:CZ.1.07/1.5.00/ „SŠHL Frýdlant.moderní školy“ Škola:Střední škola.
Název a adresa školy: Střední odborné učiliště stavební, Opava, příspěvková organizace, Boženy Němcové 22/2309, Opava Název operačního programu:OP.
Computer visualization of relational database in www environment Radek Horáček Supervisor: ing. J. Blažej,Phd. Bachelor Thesis, Department of Physical.
y.cz Název školyStřední odborná škola a Gymnázium Staré Město Číslo projektuCZ.1.07/1.5.00/ AutorMgr. Roman Chovanec Název šablonyIII/2.
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
European Language Portfolio from Outside and Inside Channel Crossings.
y.cz Název školyStřední odborná škola a Gymnázium Staré Město Číslo projektuCZ.1.07/1.5.00/ AutorMgr. Roman Chovanec Název šablonyIII/2.
CZECH STATISTICAL OFFICE Na padesátém 81, CZ Praha 10, Czech Republic Blind Friendly Website Helena Koláčková Czech Statistical Office.
COMMUNITIES Výukový materiál EK Tvůrce: Ing. Marie Jiráková Tvůrce anglické verze: Mgr. Milan Smejkal Projekt: S anglickým jazykem do dalších předmětů.
My day – daily routine NÁZEV ŠKOLY: ZŠ a MŠ Osoblaha, příspěvková organizace AUTOR: Miroslava Jarkulišová NÁZEV: VY_32_INOVACE_13_ Jazyk anglický TEMA:
INTEGRATED RESCUE SYSTEM Střední průmyslová škola Hranice Mgr. Radka Vorlová 02_Integrated Rescue System CZ.1.07/1.5.00/
AUTOR : Mgr. Alena Bartoňková NÁZEV : VY_32_INOVACE_18_15_A6_Bartonkova TÉMA : Opakování – přítomný čas prostý OBSAH : Opakování – přítomný čas prostý.
Název školy: Základní škola a Mateřská škola, Hradec Králové, Úprkova 1 Autor: Mgr. Medková Blanka Název: VY_32_INOVACE_4C_13_London (13) Téma: 4C_Aj 7.tř.
Elektronické učební materiály – I. stupeň Anglický jazyk 5 Autor: Mgr. Jaroslava Ledererová PŘÍTOMNÝ ČAS PROSTÝ Vyjadřuje děje, které jsou pořád nebo se.
Název školy: ZÁKLADNÍ ŠKOLA SADSKÁ Autor: Mgr. Věra Tománková Název DUM: VY_32_Inovace_ Word order Název sady: Project 1 Číslo projektu: CZ.1.07/1.4.00/
Adjectives expressing people´s qualities, a job interview Gymnázium a Jazyková škola s právem státní jazykové zkoušky Zlín Tematická oblastSlovní zásoba.
Gymnázium, Brno, Elgartova 3 GE - Vyšší kvalita výuky CZ.1.07/1.5.00/ III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Téma: English Grammar.
1 Change Management Přednáška k předmětu: Počítačová podpora řízení Předmět : Počítačová podpora řízení K126 PPR1 Obor : E LS, 2016, K126 EKO Přednášky/cvičení.
Present simple He goes to school every day. She gets up at 6 o´clock.
GE - Vyšší kvalita výuky
Sports, competitions, races
Change Management Přednáška k předmětu: Počítačová podpora řízení
NÁZEV ŠKOLY: ZŠ Dolní Benešov, přísp.organizace
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 25/6/2014
Linking words.
GE - Vyšší kvalita výuky
Název školy: Střední zdravotnická škola a vyšší odborná škola zdravotnická Karlovy Vary Číslo projektu: CZ.1.07/1.5.00/ Vzdělávací materiál: Podmínková.
Jiří Šafr FHS UK, SOÚ AV ČR, v.v.i. jiri.safr(zavináč)seznam.cz
Název školy: ZŠ Varnsdorf, Edisonova 2821, okres Děčín, příspěvková organizace Jazyk a jazyková komunikace, Anglický jazyk, Minulý čas prostý pravidelných.
Datum:   Projekt: Kvalitní výuka Registrační číslo: CZ.1.07/1.5.00/
Název školy: ZŠ Bor, okres Tachov, příspěvková organizace
Observational studies. Curious look into available data from the CT.gov registry.
Tento projekt byl realizován za finanční podpory Evropské unie.
Translation 10/06 Kdo má rád plavání? Who likes swimming?
Inovativní řešení Microsoft pro školství
Název školy: ZŠ Varnsdorf, Edisonova 2821, okres Děčín, příspěvková organizace Jazyk a jazyková komunikace, Anglický jazyk, Přítomný čas prostý a průběhový.
Živá fáze.
Application Layer Functionality and Protocols
Jakékoliv další používání podléhá autorskému zákonu.
DIGITÁLNÍ UČEBNÍ MATERIÁL
Statistical Business architectures and metadata management
Název školy: ZŠ Klášterec nad Ohří, Krátká 676 Autor: Mgr
Translation 03/06 Co Samuelovi spolužáci dělají What do Samuel‘s school friends do ve svém volném čase? in their free time? Oni teď hrají počítačové.
Introduction to MS Dynamics NAV (ATP_CTP)
Transkript prezentace:

Metaučení Jakub Šmíd KTIML, MFF UK Školitel: Roman Neruda Ústav informatiky AV ČR, v. v. i.

Zdroj Metalearning Applications to Data Mining Series: Cognitive Technologies Brazdil, P., Giraud Carrier, C., Soares, C., Vilalta, R. http://www.springer.com/computer/ai/book/978-3-540-73262-4 Již brzy ve Vaší knihovně!

Strojové učení Mnoho algoritmů, mnoho parametrů: Multilayer perceptron RBF Networks Support Vector Machines Bayesian Networks Inductive Logic Programming Decision trees Genetic Programmng Mnoho algoritmů, mnoho parametrů: MLP (Počty neuronů, přenosové funkce, algoritmus učení, ...) GP (Operátory, jedna/více populací) ... Existuje algoritmus, který je nejlepší?

No Free Lunch for Supervised Machine Learning Wolpert (1996) shows that in a noise-free scenario where the loss function is the misclassification rate, if one is interested in off-training-set error, then there are no a priori distinctions between learning algorithms. Jak moc negativní výsledek to je? Nevíme! ML Tasks Real World ?

Metaučení Učit se, jak se učit Metalearning is the study of principled methods that exploit metaknowledge to obtain efficient models and solutions by adapting machine learning and data mining processs Doporučování algoritmů Doporučování parametrů ...

Once upon a time ... Třída III.C Štastný konec? „Znám skvěle všechny své žáky!“ Štastný konec? „Umím všechna hlavní města!“ „Matematika je hračka!“

Již rok jsem nevykázal žádnou práci  Meanwhile ... Již rok jsem nevykázal žádnou práci  Už vím! Vymyslíme nový předmět, uspořádáme olympiádu a já budu předseda komise!

Koho poslat na Olympiádu? Osnova nového předmětu: Průměr známek: Matematika: 1 Zeměpis: 1,1 (4) Martin Matematika: 3 Zeměpis: 1 Klára Matematika: ... Zeměpis: ... ... 1. Martin 2. Klára 3. ....

Zpět k metaučení Datasets Training New dataset Zooming Ranking 1. RBF Network 2. Multilayer Perceptron 3. Regression … 1. RBF Network 2. Naïve Bayes 3. Regression … 1. RBF Network 2. Multilayer Perceptron 3. Naïve Bayes … 1. RBF Network 2. Multilayer Perceptron 3. Regression 1. Multilayer Perceptron 2. RBF Network 3. Decision Tree … Recommendations for the new dataset 1. RBF Network 2. Decision Tree 3. Multilayer Perceptron … 1. Multilayer Perceptron 2. RBF Network 3. Regression … 1. RBF Network 2. Multilayer Perceptron 3. Regression … 1. RBF Network 2. Multilayer Perceptron 3. Decision Tree … 1. RBF Network 2. Multilayer Perceptron 3. Naïve Bayes … 1. Naïve Bayes 2. Multilayer Perceptron 3. RBF Network …

Zpět k metaučení Step 1 Step 2 Step 3 Step 4 Extract metadata from the dataset at hand Step 1 Identify near datasets based on the metric on metadata space Step 2 Aggregate the results of each prediction model on near datasets Step 3 Build ranking of the models according to the results Step 4 Multilayer perceptron RBF Networks Support Vector Machines Bayesian Networks Genetic Programmng

Metafeatures Jedním z cílů metaučení je vztáhnout charakteristiky dat k úspěšnosti algoritmů Je evidentní, že volba těchto charakteristik je klíčová pro úspěšné metaučení 3 základní faktory: Rozlišovací schopnost Výpočetní náročnost Dimenzionalita Objevují se i přístupy, které používají metadata z algoritmů (eager/lazy, ....)

Druhy Metafeatures Simple, statistical and information-theoretic Simple: počet tréninkových příkladů Statistical: průměrná odchylka všech číselných atributů information-theoretic: class entropy Model based metafeatures Landmarkers, subsampling landmarkers

Aggregation Máme: nejpodobnější úlohy K-NN algoritmus: Average Rank: Jen jedna z možností

Clustering

Metatarget - možnosti Nejlepší algoritmus (classification) Podmnožina algoritmů (margin) Ranking algoritmů Odhad úspěšnosti (GP)

Odhad úspěšnosti

Evaluace Rankingu Často se používá Spearman’s rank correlation coefficient Vlastnosti: 1 .... Perfektní shoda -1 ... Naprostá neshoda Statistická signifikance r v tabulkách

Jaké jsou dobré hodnoty? Intuitivně: Ty, které mají vysoký Spearman’s rank Jak moc je to objektivní kritérium pro srovnání? Ty, které překonají nějaký triviální algoritmus: classification – jako baseline beru algoritmus, který vždy predikuje nejčastější třídu Regression – průměr/medián Ranking: vezmu Average Ranking každého uvažovaného algoritmu

TOP-N evaluace Doposud jsme měřili kvalitu rankingu Není lepší měřit jeho hodnotu (accuracy vs computational cost)? TOP-N evaluace – bude vyzkoušeno prvních N algoritmů

TOP-N evaluace Waveform dataset

TOP-N evaluace Ukázali jsme TOP-N evaluaci pro jeden dataset Potřebujeme ale udělat evaluaci pro více datasetů. Vezmeme průměr přes všechny datasety:

Metrika Založená na metadatech Raději ne 

Problém X je fixní Datasety mají rozdílný počet atributů (Pseudo)rešení: histogramy, agregace, PCA analýza

Attribute alignment Definovat vzdálenost mezi atributy Doplnit attributy dummy attributy tak, aby se jejich počet vyrovnal Hledat takovou bijekci mezi množinami atributů, která minimalizuje celkovou vzdálenost

Příklad

Algoritmus 1 Každý atribut charakterizován číslem nlogn

Algoritmus 2 Assigment problém Hungarian algorithm N^3

(Simple) Experiment

Kterak začít ...

ARFF (Attribute-Relation File Format)

UCI http://archive.ics.uci.edu/ml/datasets.html 298 Data Sets @misc{Bache+Lichman:2013 , author = "K. Bache and M. Lichman", year = "2013", title = "{UCI} Machine Learning Repository", url = "http://archive.ics.uci.edu/ml", institution = "University of California, Irvine, School of Information and Computer Sciences" } Iris Famous database; from Fisher, 1936

OpenML 911 Datasets 550 flows 25 000 Runs Comparable results http://openml.org/#

A co my?

JADE JAVA Agent Development framework Telecom Italia Yellow Pages Ontologie Distributed Computation

Role based MAS organization Agent Group Role Model Group structures Agent enters the group by playing a role from a group structure Agents interact according to communication protocol defined for their roles An agent can play more than one role at a time Group structures in our MAS: Administrative Computational Search Recommendation Data-management

Experiments repository Every result is stored – dataset, weka model, erorrs Currently over 2M results Foundation for other experiments

User scenarios Scenario 1: Scenario 2: Scenario 3: User has a dataset(s) and knows what method he or she wants to use Scenario 2: User has a dataset(s), knows what method he or she wants to use, but doesn’t know the exact parameters Scenario 3: User has a dataset(s) but doesn’t know what method to use dataset method results parameters dataset method results search dataset method results method recommender search

Parameter space search (scenario 2) User specifies: dataset data-mining method parameter space search method error threshold Iterative search loop 3, 0.2, 50 4, 0.2, 150 get-options DONE! search agent simulated annealing options manager agent error: 0.1 error: 0.6 error: 0.4 multilayer perceptron computational agent error neurons in hidden layer learning rate number of epochs 4 4 3 0.7 0.2 150 500 50 time

Parameter tuning example b a) RBF network, iris.arff (4 attributes, 150 instances, classification) b) RBF network, machine.arff dataset (9 attributes, 209 instances, regression) c) RBF network, car.arff (6 attributes, 1728 instances, classification d) RBF network, wine.arff (13 attributes, 178 instances, regression) c d