Automated data mining Ing. Jan Černý Czech Technical University in Prague Faculty of Information Technology.

Slides:



Advertisements
Podobné prezentace
PLAYBOY Kalendar 2007.
Advertisements

Lineární klasifikátor
CIT Paměti Díl X.
Podpora personálních procesů v HR Vema Jaroslav Šmarda
Zpracování informací a znalostí Datové struktury a algoritmy pro vyhledávání informací Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního.
Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
TEORIE ROZHODOVÁNÍ A TEORIE HER
OBECNÉ OPTIMALIZAČNÍ MODELY
Vlastní skript může být umístěn: v hlavičce stránky v těle stránky
*Zdroj: Průzkum spotřebitelů Komise EU, ukazatel GfK. Ekonomická očekávání v Evropě Březen.
Kvantitativní metody výzkumu v praxi
Spektra zatížení Milan Růžička 1 Dynamická pevnost a životnost
TEORIE ROZHODOVÁNÍ.
SQL – tříhodnotová logika
PROGRAM PRO VÝUKU T ČLÁNKU
Optimalizace logistického řetězce
Ten, ta, to II Fill in the blanks with the appropriate forms of ten. Vzor: Proč potřebuješ ___ knihy? Proč potřebuješ ty knihy? *Taken from Review Lesson.
Téma 3 ODM, analýza prutové soustavy, řešení nosníků
Teorie zpracování dat Ukázková písemka. Kapitola 4 Je dána tabulka Zam (login, jmeno, plat, funkce), implementovaná je v SŘBD používajícím indexové soubory.
ENERGIE KLASTRŮ VODY ZÍSKANÁ EVOLUČNÍMI ALGORITMY
Regulační diagram je to základní grafický nástroj statistické regulace procesu, který umožňuje posoudit statistickou zvládnutost procesu statisticky zvládnutý.
ROZHODOVACÍ PROCESY PRO VÍCECESTNÉ TELEMATICKÉ APLIKACE Filip Ekl
Genetické algoritmy. V průběhu výpočtu používají náhodné operace. Algoritmus není jednoznačný, může projít více cestami. Nezaručují nalezení řešení.
Hra je určená pro dvě družstva nebo dva žáky – červené x modré Po kliknutí na tlačítko s číslicí se zobrazí otázka, s otázkou se zároveň zobrazí napovídající.
Přínosy virtualizace a privátního cloudu
Siemens PLM Software © Siemens Product Lifecycle Management Software Inc. All rights reserved Využití CAM Express pro řízení obráběcích strojů a.
Dynamické rozvozní úlohy
AZ kvíz Lomené výrazy Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Ing. Šárka Macháňová. Dostupné z Metodického portálu
Využití umělých neuronových sítí k urychlení evolučních algoritmů
Návrh a optimalizace filtru OTA-C s využitím evolučních algoritmů Praha 2007 Bc. Dalibor Barri ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická.
Metody řazení s lineární časovou složitostí
Úvod do databází Databáze.
Vizualizace projektu větrného parku Stříbro porovnání variant 13 VTE a menšího parku.
ScanStation P20 – uživatelská kalibrace (procedura Check & Adjust)
Dělení se zbytkem 3 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA reg. č.: CZ.1.07/1.4.00/ Základní škola, Šlapanice, okres Brno-venkov, příspěvková organizace Masarykovo nám.
ARITMETICKÁ POSLOUPNOST I
ZOHO OFFICE Vypracovala: Iva Ptáčková, A11B0605P 1.
Základní číselné množiny
VÍCEKRITERIÁLNÍ ROZHODOVÁNÍ I.
Získávání informací Získání informací o reálném systému
Gravitační vlny v přesných řešeních Einsteinových rovnic RNDr
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
LINEÁRNÍ OPTIMALIZAČNÍ MODEL
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.

1 BEL Stewart Net, s.r.o. Na Bojišti 2, Praha Roman Pinc & Jan Fulín.
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
Tento Digitální učební materiál vznikl díky finanční podpoře EU- OP Vzdělávání pro konkurenceschopnost. Není – li uvedeno jinak, je tento materiál zpracován.
Seminář C cvičení STL, Trolltech Ing. Jan Mikulka.
Matematická teorie rozhodování
Soutěž pro dvě družstva
Systémy pro podporu managementu 2
Fyzika 2 – ZS_3 OPTIKA.
VII. Neutronová interferometrie II. cvičení KOTLÁŘSKÁ 7. DUBNA 2010 F4110 Kvantová fyzika atomárních soustav letní semestr
Jazyk vývojových diagramů
ANALÝZA VÝSLEDKŮ LINEÁRNÍHO OPTIMALIZAČNÍHO MODELU
1 © Mediaresearch, a.s., 2008 NetMonitor a AdMonitoring Výsledky za říjen 2008.
Optimalizace versus simulace 9.přednáška. Obecně o optimalizaci  Maximalizovat nebo minimalizovat omezujících podmínkách.  Maximalizovat nebo minimalizovat.
Téma: Vektorizace obrázků -10. díl
Změny v SOILINu ve SCIA Engineer oproti Nexis32
1 6 Predikce potřeby Servisní logistika prof. Ing. Václav Legát, DrSc. Technická fakulta ČZU v Praze Katedra jakosti a spolehlivosti strojů
2 Ing. Jan Keprt Centrální správa uživatelů 3 Jak to bylo dosud Bylo třeba nastavení uživatelů provést zvlášť, v každém modulu samostatně. Uživatel si.
TRUHLÁŘ I.ročník Výrobní zařízení Střední škola stavební Teplice
Dokumentace informačního systému
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
W i ref (t+1) = W i ref (t) + h ci (t) [X(t) - W i ref (t)], i Nc h ci (t) 0, t  proces konverguje Algoritmy a struktury neuropočítačů ASN – P3 SOM algoritmus.
Algoritmy a struktury neuropočítačů ASN - P14 Hopfieldovy sítě Asociativní paměti rekonstrukce původních nezkreslených vzorů předkládají se neúplné nebo.
SOFTWAROVÁ PODPORA PRO VYTVÁŘENÍ FUZZY MODELŮ Knihovna fuzzy procedur Ing. Petr Želasko, VŠB-TU Ostrava.
Transkript prezentace:

Automated data mining Ing. Jan Černý Czech Technical University in Prague Faculty of Information Technology

Struktura aplikace FAKE-GAME Jan Černý Introduction Ensemble SpecGen Experiments Evoluční algoritmus Hierarchický ensemble Ensemble Základní modely Řízení evoluce 2

Ensemble Jan Černý Introduction Ensemble SpecGen Experiments 1 2 Kombinace modelů za účelem dosažení lepšího výstupu než poskytuje nejlepší z těchto modelů. Využívají toho, že každý model dělá různé chyby

Ensemble Jan Černý Introduction Ensemble SpecGen Experiments 1 2 Ensemble ovlivňuje modely ve dvou fázích 1.Učení vhodným výběrem učících dat pro modely se dosahuje diverzifikace modelů. 2.Výpočet výstupu Druhy ensemblů Bagging Boosting Stacking Cascade Generalization Cascading Delegating Area Specialization Divide Regresní i klasifikačníKlasifikační Regresní

Bagging Jan Černý Introduction Ensemble SpecGen Experiments 1 2 Učení Výběr s opakováním. Výstup Průměr

Boosting Jan Černý Introduction Ensemble SpecGen Experiments 1 2 Učení Specializace modelů na chyby předchozích modelů. Výstup Vážený průměr

Stacking Jan Černý Introduction Ensemble SpecGen Experiments 1 2 Učení Konstrukce metamodelu z výstupu všech modelů. Výstup Výstup metamodelu. Lineární metamodel ST out = a*Y 1 + b*Y 2 + c

Cascade Generalization Jan Černý Introduction Ensemble SpecGen Experiments 1 2 Učení Učící množina je po každé iteraci rozšířena o výstup předchozího modelu. Výstup Výstup posledního modelu. Lineární metamodel CG out = a*Y 1 + b*X + c

Cascading a Delegating Jan Černý Introduction Ensemble SpecGen Experiments 1 2 Cascading Učení Změna vah učících vektorů u kterých si nejsou předchozí modely dostatečně jisté výstupem. Výstup Výstup prvního modelu, který odpoví s jistotou větší než daný práh. Delegating Učení Model je naučen na instancích, kterými si není předchozí model jistý. Výstup Výstup prvního modelu, který odpoví s jistotou větší než daný práh

Area Specialization Jan Černý Introduction Ensemble SpecGen Experiments 1 2 Využívá model pouze v oblasti, kde je nejlepší. Lze použít modely, které jsou dobré pouze v malé oblasti dat. Vysoká odolnost na nekvalitní modely. Učení Specializace modelů na chyby předchozích modelů. Výstup Určení nejlepších modelů pro učící vektory v okolí neznámého vektoru. Chyby nejlepších modelů jsou přepočteny na váhy modelů. Výstupem je vážený průměr modelů

Area Specialization Jan Černý Introduction Ensemble SpecGen Experiments 1 2 Model 3 Model 2 Model 1 Ensemble

Divide ensemble Jan Černý Introduction Ensemble SpecGen Experiments 1 2 Každému modelu přiděluje pouze tu oblast dat na které se optimálně naučí a zvládne jí aproximovat. Lepší a rychlejší učení modelů na menších oblastech dat. Učení Provede se shluková analýza a každému modelu se přidělí jeden cluster. Výstup Odpověď modelu zodpovědného za daný cluster

Divide ensemble Jan Černý Introduction Ensemble SpecGen Experiments 1 2 Model 1 Model 3 Model

Hierarchický ensemble Jan Černý Introduction Ensemble SpecGen Experiments 1 2 Zobecnění předchozího tak, že jako základní model pro ensemble využijeme jiný ensemble. Složité stromové struktury s nekonečným stavovým prostorem => nutnost neuplného prohledávání

Hierarchický ensemble Jan Černý Introduction Ensemble SpecGen Experiments 1 2 Význam regresních ensemblů pro klasifikátory Zvětšení stavového prostoru x efektivní řešení určitých problémů

Evoluční algoritmus SpecGen Jan Černý Introduction Ensemble SpecGen Experiments Algoritmus pro evoluci stromových struktur. Evoluční algoritmus Problémově nezávislá část. Evoluční operace: 3 druhy mutace. Kontext Problémově závislá část. Výpočet fitness (tvorba modelů, práce s daty). Řízení evoluce Nastavení parametrů evoluce na základě zkušeností z předchozích běhů a metainformací. 16

Kontext Jan Černý Introduction Ensemble SpecGen Experiments 1 2 Nejlepší model vs nejlepší konfigurace. Snadné přetížení kontextu a modifikace na jiný (kontext s učící+testovací množinou vs crossvalidace, kontext pro regresní modely vs klasifikátory). Cache Vysoká jistota kvality modelu při velké rychlosti výpočtu. Možnost využítí veškerých znalostí z celého běhu evoluce

Evoluční algoritmus Jan Černý Introduction Ensemble SpecGen Experiments 1 2 Template Vnější strom slouží k uchování reference uzlů na svoji šablonu. Minimální a maximální hodnoty proměnných. Reference na šablony do kterých může zmutovat Clone Mutate Rnd 23 26

Evoluční algoritmus Jan Černý Introduction Ensemble SpecGen Experiments 1 2 Růst z minimální formy Dynamický růst maxima počtu modelů, podle toho jak se daná konfigurace osvědčí. Společně s omezením počtu modelů na konfiguraci umožňuje efektivní prozkoumání prostoru do dané složitosti. Nárůst hloubky stromu při detekci konvergence. Stárnutí Mechanismus pro selekční tlak a elitismus zároveň

Řízení evoluce Jan Černý Introduction Ensemble SpecGen Experiments 1 2 Nastavení parametrů evoluce v závislosti na časovém požadavku. Parametry ovlivňující trvání/kvalitu evoluce. Nutné parametry (volba vhodného kontextu, volba uvažovaných algoritmů..). => Redukce parametrů pro uživatele na jediný a srozumitelný parametr. Využití více kontextů a více evolučních algoritmů. Redukce dat a zvětšování vzorku dat při konvergenci Na redukovaných datech lze rychleji nalézt dobrou kombinaci modelů, která poté bude fungovat i na kompletních datech. Zvětšení vzorku = nový kontext. Přenos nejlepších řešení do nového kontextu

Řízení evoluce Jan Černý Introduction Ensemble SpecGen Experiments 1 2 Zkušenosti z předchozích běhů Na základě podobnosti metadat vyberu vhodné jedince do počáteční generace. Na základě podobnosti výstupu modelů rozhodnu zda aktualizovat záznam v databázi nebo vytvořit nový => automatické clusterování dat v databázi. Optimalizace proměnných Využití jinak nastavené evoluce nad stejným kontextem. Malá pravď. strukturních mutací Vysoká pravď. mutace proměnných

Řízení evoluce Jan Černý Introduction Ensemble SpecGen Experiments Zvětšování vzorku dat při konvergenci Zkušenosti z předchozích běhů Optimalizace proměnných 23 26

Experimenty - ensemble Jan Černý Introduction Ensemble SpecGen Experiments

Experimenty - evoluce Jan Černý Introduction Ensemble SpecGen Experiments

Experimenty - evoluce Jan Černý Introduction Ensemble SpecGen Experiments

Závěr Jan Černý Introduction Ensemble SpecGen Experiments Ensemble algoritmy a princip hierarchických ensemblů se ukazují jako velmi perspektivní přístup s možností snadné modifikace a rychlé reakce na vývoj v oblasti data miningu. Z experimentů vyplývá, že všechny modely a ensembly jsou velmi datově závislé. Neexistuje tedy jediný algoritmus (nebo jejich kombinace), který by byl nejlepší na všechna data. Tím se potvrzuje správnost našeho přístupu výběru rozdílných kombinací algoritmů pomocí optimalizačního algoritmu

Questions Discussion