ECML/PKDD 2003 – Dubrovník (Cavtat) Tomáš Karban KEG 9. října 2003.

Slides:



Advertisements
Podobné prezentace
Zpracování SQL Lubomír Andrle 5. přednáška
Advertisements

Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Fůze rozmazaných snímků ( Li, Manjunath, Mitra) kombinace „nejlepších“ dat volba „nejlepších“ - pomocí DWT, levý Mallat strom absolutní hodnota koeficientů.
Fraktálová komprese obrazu
Jiří Gazárek, Martin Havlíček Analýza nezávislých komponent (ICA) v datech fMRI, a ICA necitlivá ke zpoždění.
Rozložení EEG elektrod (10-20 system)
Statistika schématicky Tomáš Mrkvička. Základy znáte Konfidenční intervaly Porovnání 2 či více výběrů Regresní modely Základy časových řad.
Automated data mining Ing. Jan Černý Czech Technical University in Prague Faculty of Information Technology.
DOK „Umělá inteligence“ v DOK (i jinde). NEURONOVÉ SÍTĚ.
Strojové učení I (Mitchell93) učicí množina příkladů hledáme generalizaci učicí množiny ověřujeme na testovací množině pokrytí, přesnost, F-kriterium.
Optimalizace v simulačním modelování. Obecně o optimalizaci  Optimalizovat znamená maximalizovat nebo minimalizovat parametrech (např. počet obslužných.
20. Metody zpracování digitálních dat dálkového průzkumu
EKO/GISO – Modely prostorových dat.  Mnoho definic - jedno mají společné – Gisy pracují s prostorovými daty  Minimální GIS vždy spojuje databázi, prostorové.
STANOVENÍ NEJISTOT PŘI VÝPOŠTU KONTAMINACE ZASAŽENÉHO ÚZEMÍ
Difrakce na difrakční mřížce
Systémy pro podporu managementu 2
Téma hodiny: Chorvatsko Předmět: Zeměpis Ročník: 2., 3. ročník
Podnikové informační systémy C7 – Data Mining a získávání znalostí České vysoké učení technické v Praze Fakulta strojní ústav Řízení a ekonomiky podniku.
Informatika pro ekonomy II přednáška 10
Optimalizace versus simulace 9.přednáška. Obecně o optimalizaci  Maximalizovat nebo minimalizovat omezujících podmínkách.  Maximalizovat nebo minimalizovat.
Ústav automatizace a měřicí techniky
 BA_EM Electronic Marketing Pavel Agenda  Efektivní data mining jako zdroj relevantních dat o potřebách zákazníků.
Počítačová tomografie (CT)
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Lineární regresní analýza
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Jan Šaršon Milan Jaška 1Dobývání znalostí, MFF UK, 2008.
Tvorba simulačních modelů. Než vznikne model 1.Existence problému 2.Podrobnosti o problému a o systému 3.Jiné možnosti řešení ? 4.Existence podobného.
Databáze velké množství dat pevně dané struktury
Rozhodovací proces, podpory rozhodovacích procesů
ŘÍZENÍ DOPRAVY POMOCÍ SW AGENTŮ Richard Lipka, DSS
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Návrh a implementace algoritmu SLAM pro mobilní robot
1. 2 Hypertextové odkazy Na stránce se mohou nacházet místa, na která když klepnete myší, dostanete se na jinou stránku, na jiný server nebo na jinou.
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Optimalizace versus simulace 8.přednáška. Obecně o optimalizaci  Maximalizovat nebo minimalizovat omezujících podmínkách.  Maximalizovat nebo minimalizovat.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Dita Matesová, David Lehký, Zbyněk Keršner
© Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
CW – 05 TEORIE ROZHODOVACÍCH PROCESŮ Ústav technologie, mechanizace a řízení staveb Fakulta stavební VUT v Brně Ing. Václav Rada, CSc. Leden 2009.
Martin Langhammer Antonín Wimberský. ÚVOD PŘEDPOKLADY Jednotný vstup Zadní SPZ Stejný úhel a vzdálenost záběru Pouze vodorovné záběry značek Obdélníkové.
Praktická využití UNS V medicínských aplikacích Jan Vrba 2006.
Odhad ceny akcií Martin Dörfler, Jiří Marchalín. Původní metoda  odhad ceny akcií pomocí neuronové sítě v závislosti na minulých hodnotách kombinací.
Elektrotechnická fakulta ČVUT KATEDRA KYBERNETIKY Vedoucí prof. Ing. Vladimír Mařík, DrSc. KATEDRA KYBERNETIKY ELEKTROTECHNICKÁ.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Cenová mapa podnájmů v Praze Ondřej Kmoch Tomáš Kohan
Neuronové sítě.
Využití neuronových sítí IVTH – Informační technologie ve vodním hospodářství Vypracoval: Jiří Vacek Z-92.
Využití technik dataminingu při rozpoznávání znaků Marek Kukačka Květen 2006.
Geografické informační systémy pojetí, definice, součásti
MS PowerPoint Pokročilé efekty a práce s multimédii.
Rozhodnutí o kvalitě místa bydlení dle různých atributů Projekt do ISR Jaromír Hloch ARI.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
StatSoft CR Tel: Fax: Podbabská 16
Panel úloh.
Ing. Athanasios Podaras, Ph.D
Dobývání znalostí z databází dolování dat
Databázové systémy přednáška 13 – Analýza a reporting
Metody strojového učení
Proč statistika ? Dva důvody Popis Inference
Informatika pro ekonomy přednáška 8
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Neuronové sítě.
Pokročilé neparametrické metody Validační techniky
CW-057 LOGISTIKA 44. PŘEDNÁŠKA Teorie grafů – 3 - stromy Leden 2017
Základy statistiky.
ANALÝZA A KLASIFIKACE DAT
Transkript prezentace:

ECML/PKDD 2003 – Dubrovník (Cavtat) Tomáš Karban KEG 9. října 2003

Historie konference European Conference on Machine Learning  14. ročník Principles and Practice of Knowledge Discovery in Databases  7. ročník Konference poprvé sloučeny v roce 2001

Cavtat Příjemné turistické městečko v Jižní Dalmácii, blízko Dubrovníku

Důležité informace měna: 1 kuna = 4,20 Kč €1 = 7,45 kuna rozloha: km 2 obyvatel: 4,9 mil. hl. město: Zagreb (707 tis.) jazyk: chorvatština obyvatelstvo:  78% Chorvati  12% Srbové  10% ostatní názvy měsíců v chorvatštině:  1. siječanj  2. veljača  3. ožujak  4. travanj  5. svibanj  6. lipanj  7. srpanj  8. kolovoz  9. rujan  10. listopad  11. studeni  12. prosinac

1 discovery challenge Letošní účast Celkem 322 přihlášených článků  40 přijato na ECML, 40 přijato na PKDD  Každý článek hodnocen třemi recenzenty 4 zvané přednášky 4 tutoriály 7 workshopů 2 tutoriály kombinované s workshopem

Association Rules Mining in Text Documents Vícestránkový textový dokument (  scanner) Analýza rozložení stránek (bloky textu, obrázky,…) OCR pro bloky textu Hierarchická reprezentace dokumentu v XML  obsahuje text, obrázky a informace o jejich vzájemné poloze a velikosti is_a(A,author) -> type(A,text) & pos_centered(A) & pos_above(A,B) & type(B,text) & layout_type(B,abstract) & pos_height(B,[ ])

Music Analysis snaha zkonstruovat klasifikátor do žánrů  jazz, techno, rock, classic, heavy metal diskrétní waveletová transformace  detekce rytmu, frekvenční analýza, střední a maximální energie, …  celkem 143 atributů dataset: 200 písniček zkoušení různých kombinací klasifikačních algoritmů problém s přeučením  výběr atributů podle různých kritérií (information gain, gain ratio, PCA) úspěšnost: kolem 80% další rozvoj: více písniček, neuronové sítě, hierarchie žánrů, zpěv a mluvené slovo

Integrated Classification of Audio, Video & Speech (low level features) Fraunhofer Institute (u zrodu MP3) cílem je klasifikovat záznamy zpravodajství a poté umožnit vyhledávání podle kategorií a klíčových slov dataset: 11 hodin německého zpravodajství zvuk  spektrální analýzy všeho druhu mluvené slovo  speech recognition  text  syllables recognition  slabiky, fonémy video  segmentace do jednotlivých záběrů, z každého záběru heuristicky vybrán jeden snímek jako reprezentant  barevné histogramy, střední délka záběrů a std. odchylka, …

Integrated Classification of Audio, Video & Speech (low level features) Výsledky (úspěšnost):  video 30-50% (reklamy 80-90%)  mluvené slovo 60-80% (reklamy 80%)  zvuk 50-60%  integrováno dohromady 60-80% paradoxně mírně horší než samotný zvuk Závěry studie  z mluveného slova je lépe extrahovat slabiky a fonémy, převod na text zavleče příliš mnoho chyb  na slabiky a fonémy lze výborně aplikovat (jazykově závislé) N-gramy, čímž se razantně zvýší přesnost  klasifikátor SVM srovnatelný s lidskými experty  je třeba vylepšit analýzu obrazu, ve stávající formě nepřináší téměř nic

Sailing as a Machine Learning Challenge Pieter Adriaans projekt Robosail (  od roku 1997  cílem je sestrojit samo-učící se autopilot pro závodní jachty řízené jednou rukou vstupem jsou informace ze spousty nespolehlivých senzorů rozmístěných na jachtě hybridní systém  systém agentů, strojové učení, data mining, rozhodování na základě pravidel  "skill-based system"

Sailing as a Machine Learning Challenge Pieter Adriaans Co je tak těžké?  nikdo neumí předem říci, jak vypadá optimální řešení  ostřílený námořník řídí na základě velkého množství faktorů, které vyhodnocuje intuicí na základě mnoha let zkušeností  mnoho faktorů ovlivňuje plavbu lodi směr, síla a turbulence větru, vlny, mořské proudy, mokré plachty fyzikální simulace jachty je prý mnohem náročnější než například simulace letadla  nelze udělat přesné a spolehlivé senzory, navíc je třeba šetřit energií

Sailing as a Machine Learning Challenge Pieter Adriaans nejlepší výsledky dosaženy získáním expertních "fuzzy" pravidel, strojové učení pak stanovuje optimální parametry příklad: "když pluješ ostře proti větru, pak při poryvech stáčej loď s větrem"  agent: když je zdánlivý směr větru mezi A a B vzhledem k lodi, pak plujeme proti větru  agent: pokud průměrný nárůst/pokles rychlosti větru je větší než D v posledním časovém okamžiku, pak je nárazový vítr  agent: stoč loď o Z po směru větru  ML: nalezení optimálních A, B, D, Z

Logistic Model Trees Niels Landwehr, Mark Hall, Eibe Frank rozhodovací strom  klasifikátor lineární regrese  predikce numerických hodnot kombinace (tzv. "model trees")  predikce numer. hodnot pro úlohy, které lze rozdělovat ortogonálními nadrovinami pokud lineární regresi nahradíme logistickou regresí, získáme opět klasifikátor, tzv. LMT  menší a přesnější modely než klasický rozhodovací strom  přesnější než rozhodovací strom i logist. regrese  bohužel pomalejší implementováno do systému Weka (3.3.6)

Taking Causality Seriously: Propensity Score Methodology Donald B. Rubin propensity score pomáhá odhadnout kauzální efekt intervencí – medicína, ekonomie, epidemiologie…  obzvláště tam, kde je obtížné provést randomizovaný experiment v marketingu je často zaměňována kauzalita pouhou časovou změnou, která nemusí mít příčinu v provedené intervenci (kampani, reklamnímu dopisu, večeři, …) řešení: nalézt propensity score, podle něj rozčlenit pozorované objekty a usuzovat po jednotlivých skupinách

Two-eyed Algorithms and Problems Leo Breiman two-eyed: takové algoritmy, které kromě přesných predikcí udávají také srozumitelný vhled do struktury dat RANDOM FOREST – kombinace stromových prediktorů, které jsou postaveny z nezávisle náhodně vybraných podmnožin vstupních atributů  výsledná třída daná hlasováním  stabilní, konvergující  overfitting není problém  lze použít i pro učení bez učitele, shlukování, detekci odlehlých případů a doplňování chybějících dat

Next Generation DM Tools: Power Laws and Self-Similarity Christos Faloutsos Použití fraktálů a soběpodobnosti k modelování  zatížení webserverů, rozložení galaxií po obloze, modelování tvaru pobřeží, ceny akcií, povrch mozku savců, krevní řečiště,… Power-law je často příbuzný problém, protože nevykazuje charakteristický rozměr  y = f(x) = x a  f(c * x) = c a * x a