Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
ECML/PKDD 2003 – Dubrovník (Cavtat) Tomáš Karban KEG 9. října 2003
2
Historie konference European Conference on Machine Learning 14. ročník Principles and Practice of Knowledge Discovery in Databases 7. ročník Konference poprvé sloučeny v roce 2001
3
Cavtat Příjemné turistické městečko v Jižní Dalmácii, blízko Dubrovníku
6
Důležité informace měna: 1 kuna = 4,20 Kč €1 = 7,45 kuna rozloha: 56 538 km 2 obyvatel: 4,9 mil. hl. město: Zagreb (707 tis.) jazyk: chorvatština obyvatelstvo: 78% Chorvati 12% Srbové 10% ostatní názvy měsíců v chorvatštině: 1. siječanj 2. veljača 3. ožujak 4. travanj 5. svibanj 6. lipanj 7. srpanj 8. kolovoz 9. rujan 10. listopad 11. studeni 12. prosinac
7
1 discovery challenge Letošní účast Celkem 322 přihlášených článků 40 přijato na ECML, 40 přijato na PKDD Každý článek hodnocen třemi recenzenty 4 zvané přednášky 4 tutoriály 7 workshopů 2 tutoriály kombinované s workshopem
8
Association Rules Mining in Text Documents Vícestránkový textový dokument ( scanner) Analýza rozložení stránek (bloky textu, obrázky,…) OCR pro bloky textu Hierarchická reprezentace dokumentu v XML obsahuje text, obrázky a informace o jejich vzájemné poloze a velikosti is_a(A,author) -> type(A,text) & pos_centered(A) & pos_above(A,B) & type(B,text) & layout_type(B,abstract) & pos_height(B,[50..150])
9
Music Analysis snaha zkonstruovat klasifikátor do žánrů jazz, techno, rock, classic, heavy metal diskrétní waveletová transformace detekce rytmu, frekvenční analýza, střední a maximální energie, … celkem 143 atributů dataset: 200 písniček zkoušení různých kombinací klasifikačních algoritmů problém s přeučením výběr atributů podle různých kritérií (information gain, gain ratio, PCA) úspěšnost: kolem 80% další rozvoj: více písniček, neuronové sítě, hierarchie žánrů, zpěv a mluvené slovo
10
Integrated Classification of Audio, Video & Speech (low level features) Fraunhofer Institute (u zrodu MP3) cílem je klasifikovat záznamy zpravodajství a poté umožnit vyhledávání podle kategorií a klíčových slov dataset: 11 hodin německého zpravodajství zvuk spektrální analýzy všeho druhu mluvené slovo speech recognition text syllables recognition slabiky, fonémy video segmentace do jednotlivých záběrů, z každého záběru heuristicky vybrán jeden snímek jako reprezentant barevné histogramy, střední délka záběrů a std. odchylka, …
11
Integrated Classification of Audio, Video & Speech (low level features) Výsledky (úspěšnost): video 30-50% (reklamy 80-90%) mluvené slovo 60-80% (reklamy 80%) zvuk 50-60% integrováno dohromady 60-80% paradoxně mírně horší než samotný zvuk Závěry studie z mluveného slova je lépe extrahovat slabiky a fonémy, převod na text zavleče příliš mnoho chyb na slabiky a fonémy lze výborně aplikovat (jazykově závislé) N-gramy, čímž se razantně zvýší přesnost klasifikátor SVM srovnatelný s lidskými experty je třeba vylepšit analýzu obrazu, ve stávající formě nepřináší téměř nic
12
Sailing as a Machine Learning Challenge Pieter Adriaans projekt Robosail (www.robosail.com) od roku 1997 cílem je sestrojit samo-učící se autopilot pro závodní jachty řízené jednou rukou vstupem jsou informace ze spousty nespolehlivých senzorů rozmístěných na jachtě hybridní systém systém agentů, strojové učení, data mining, rozhodování na základě pravidel "skill-based system"
13
Sailing as a Machine Learning Challenge Pieter Adriaans Co je tak těžké? nikdo neumí předem říci, jak vypadá optimální řešení ostřílený námořník řídí na základě velkého množství faktorů, které vyhodnocuje intuicí na základě mnoha let zkušeností mnoho faktorů ovlivňuje plavbu lodi směr, síla a turbulence větru, vlny, mořské proudy, mokré plachty fyzikální simulace jachty je prý mnohem náročnější než například simulace letadla nelze udělat přesné a spolehlivé senzory, navíc je třeba šetřit energií
14
Sailing as a Machine Learning Challenge Pieter Adriaans nejlepší výsledky dosaženy získáním expertních "fuzzy" pravidel, strojové učení pak stanovuje optimální parametry příklad: "když pluješ ostře proti větru, pak při poryvech stáčej loď s větrem" agent: když je zdánlivý směr větru mezi A a B vzhledem k lodi, pak plujeme proti větru agent: pokud průměrný nárůst/pokles rychlosti větru je větší než D v posledním časovém okamžiku, pak je nárazový vítr agent: stoč loď o Z po směru větru ML: nalezení optimálních A, B, D, Z
15
Logistic Model Trees Niels Landwehr, Mark Hall, Eibe Frank rozhodovací strom klasifikátor lineární regrese predikce numerických hodnot kombinace (tzv. "model trees") predikce numer. hodnot pro úlohy, které lze rozdělovat ortogonálními nadrovinami pokud lineární regresi nahradíme logistickou regresí, získáme opět klasifikátor, tzv. LMT menší a přesnější modely než klasický rozhodovací strom přesnější než rozhodovací strom i logist. regrese bohužel pomalejší implementováno do systému Weka (3.3.6)
16
Taking Causality Seriously: Propensity Score Methodology Donald B. Rubin propensity score pomáhá odhadnout kauzální efekt intervencí – medicína, ekonomie, epidemiologie… obzvláště tam, kde je obtížné provést randomizovaný experiment v marketingu je často zaměňována kauzalita pouhou časovou změnou, která nemusí mít příčinu v provedené intervenci (kampani, reklamnímu dopisu, večeři, …) řešení: nalézt propensity score, podle něj rozčlenit pozorované objekty a usuzovat po jednotlivých skupinách
17
Two-eyed Algorithms and Problems Leo Breiman two-eyed: takové algoritmy, které kromě přesných predikcí udávají také srozumitelný vhled do struktury dat RANDOM FOREST – kombinace stromových prediktorů, které jsou postaveny z nezávisle náhodně vybraných podmnožin vstupních atributů výsledná třída daná hlasováním stabilní, konvergující overfitting není problém lze použít i pro učení bez učitele, shlukování, detekci odlehlých případů a doplňování chybějících dat
18
Next Generation DM Tools: Power Laws and Self-Similarity Christos Faloutsos Použití fraktálů a soběpodobnosti k modelování zatížení webserverů, rozložení galaxií po obloze, modelování tvaru pobřeží, ceny akcií, povrch mozku savců, krevní řečiště,… Power-law je často příbuzný problém, protože nevykazuje charakteristický rozměr y = f(x) = x a f(c * x) = c a * x a
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.