ECML/PKDD 2003 – Dubrovník (Cavtat) Tomáš Karban KEG 9. října 2003.

ECML/PKDD 2003 – Dubrovník (Cavtat) Tomáš Karban KEG 9. října 2003

Historie konference European Conference on Machine Learning  14. ročník Principles and Practice of Knowledge Discovery in Databases  7. ročník Konference poprvé sloučeny v roce 2001

Cavtat Příjemné turistické městečko v Jižní Dalmácii, blízko Dubrovníku

Důležité informace měna: 1 kuna = 4,20 Kč €1 = 7,45 kuna rozloha: 56 538 km 2 obyvatel: 4,9 mil. hl. město: Zagreb (707 tis.) jazyk: chorvatština obyvatelstvo:  78% Chorvati  12% Srbové  10% ostatní názvy měsíců v chorvatštině:  1. siječanj  2. veljača  3. ožujak  4. travanj  5. svibanj  6. lipanj  7. srpanj  8. kolovoz  9. rujan  10. listopad  11. studeni  12. prosinac

1 discovery challenge Letošní účast Celkem 322 přihlášených článků  40 přijato na ECML, 40 přijato na PKDD  Každý článek hodnocen třemi recenzenty 4 zvané přednášky 4 tutoriály 7 workshopů 2 tutoriály kombinované s workshopem

Association Rules Mining in Text Documents Vícestránkový textový dokument (  scanner) Analýza rozložení stránek (bloky textu, obrázky,…) OCR pro bloky textu Hierarchická reprezentace dokumentu v XML  obsahuje text, obrázky a informace o jejich vzájemné poloze a velikosti is_a(A,author) -> type(A,text) & pos_centered(A) & pos_above(A,B) & type(B,text) & layout_type(B,abstract) & pos_height(B,[50..150])

Music Analysis snaha zkonstruovat klasifikátor do žánrů  jazz, techno, rock, classic, heavy metal diskrétní waveletová transformace  detekce rytmu, frekvenční analýza, střední a maximální energie, …  celkem 143 atributů dataset: 200 písniček zkoušení různých kombinací klasifikačních algoritmů problém s přeučením  výběr atributů podle různých kritérií (information gain, gain ratio, PCA) úspěšnost: kolem 80% další rozvoj: více písniček, neuronové sítě, hierarchie žánrů, zpěv a mluvené slovo

Integrated Classification of Audio, Video & Speech (low level features) Fraunhofer Institute (u zrodu MP3) cílem je klasifikovat záznamy zpravodajství a poté umožnit vyhledávání podle kategorií a klíčových slov dataset: 11 hodin německého zpravodajství zvuk  spektrální analýzy všeho druhu mluvené slovo  speech recognition  text  syllables recognition  slabiky, fonémy video  segmentace do jednotlivých záběrů, z každého záběru heuristicky vybrán jeden snímek jako reprezentant  barevné histogramy, střední délka záběrů a std. odchylka, …

Integrated Classification of Audio, Video & Speech (low level features) Výsledky (úspěšnost):  video 30-50% (reklamy 80-90%)  mluvené slovo 60-80% (reklamy 80%)  zvuk 50-60%  integrováno dohromady 60-80% paradoxně mírně horší než samotný zvuk Závěry studie  z mluveného slova je lépe extrahovat slabiky a fonémy, převod na text zavleče příliš mnoho chyb  na slabiky a fonémy lze výborně aplikovat (jazykově závislé) N-gramy, čímž se razantně zvýší přesnost  klasifikátor SVM srovnatelný s lidskými experty  je třeba vylepšit analýzu obrazu, ve stávající formě nepřináší téměř nic

Sailing as a Machine Learning Challenge Pieter Adriaans projekt Robosail (www.robosail.com)  od roku 1997  cílem je sestrojit samo-učící se autopilot pro závodní jachty řízené jednou rukou vstupem jsou informace ze spousty nespolehlivých senzorů rozmístěných na jachtě hybridní systém  systém agentů, strojové učení, data mining, rozhodování na základě pravidel  "skill-based system"

Sailing as a Machine Learning Challenge Pieter Adriaans Co je tak těžké?  nikdo neumí předem říci, jak vypadá optimální řešení  ostřílený námořník řídí na základě velkého množství faktorů, které vyhodnocuje intuicí na základě mnoha let zkušeností  mnoho faktorů ovlivňuje plavbu lodi směr, síla a turbulence větru, vlny, mořské proudy, mokré plachty fyzikální simulace jachty je prý mnohem náročnější než například simulace letadla  nelze udělat přesné a spolehlivé senzory, navíc je třeba šetřit energií

Sailing as a Machine Learning Challenge Pieter Adriaans nejlepší výsledky dosaženy získáním expertních "fuzzy" pravidel, strojové učení pak stanovuje optimální parametry příklad: "když pluješ ostře proti větru, pak při poryvech stáčej loď s větrem"  agent: když je zdánlivý směr větru mezi A a B vzhledem k lodi, pak plujeme proti větru  agent: pokud průměrný nárůst/pokles rychlosti větru je větší než D v posledním časovém okamžiku, pak je nárazový vítr  agent: stoč loď o Z po směru větru  ML: nalezení optimálních A, B, D, Z

Logistic Model Trees Niels Landwehr, Mark Hall, Eibe Frank rozhodovací strom  klasifikátor lineární regrese  predikce numerických hodnot kombinace (tzv. "model trees")  predikce numer. hodnot pro úlohy, které lze rozdělovat ortogonálními nadrovinami pokud lineární regresi nahradíme logistickou regresí, získáme opět klasifikátor, tzv. LMT  menší a přesnější modely než klasický rozhodovací strom  přesnější než rozhodovací strom i logist. regrese  bohužel pomalejší implementováno do systému Weka (3.3.6)

Taking Causality Seriously: Propensity Score Methodology Donald B. Rubin propensity score pomáhá odhadnout kauzální efekt intervencí – medicína, ekonomie, epidemiologie…  obzvláště tam, kde je obtížné provést randomizovaný experiment v marketingu je často zaměňována kauzalita pouhou časovou změnou, která nemusí mít příčinu v provedené intervenci (kampani, reklamnímu dopisu, večeři, …) řešení: nalézt propensity score, podle něj rozčlenit pozorované objekty a usuzovat po jednotlivých skupinách

Two-eyed Algorithms and Problems Leo Breiman two-eyed: takové algoritmy, které kromě přesných predikcí udávají také srozumitelný vhled do struktury dat RANDOM FOREST – kombinace stromových prediktorů, které jsou postaveny z nezávisle náhodně vybraných podmnožin vstupních atributů  výsledná třída daná hlasováním  stabilní, konvergující  overfitting není problém  lze použít i pro učení bez učitele, shlukování, detekci odlehlých případů a doplňování chybějících dat

Next Generation DM Tools: Power Laws and Self-Similarity Christos Faloutsos Použití fraktálů a soběpodobnosti k modelování  zatížení webserverů, rozložení galaxií po obloze, modelování tvaru pobřeží, ceny akcií, povrch mozku savců, krevní řečiště,… Power-law je často příbuzný problém, protože nevykazuje charakteristický rozměr  y = f(x) = x a  f(c * x) = c a * x a

ECML/PKDD 2003 – Dubrovník (Cavtat) Tomáš Karban KEG 9. října 2003.

Podobné prezentace

Prezentace na téma: "ECML/PKDD 2003 – Dubrovník (Cavtat) Tomáš Karban KEG 9. října 2003."— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

ECML/PKDD 2003 – Dubrovník (Cavtat) Tomáš Karban KEG 9. října 2003.

Podobné prezentace

Prezentace na téma: "ECML/PKDD 2003 – Dubrovník (Cavtat) Tomáš Karban KEG 9. října 2003."— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář