ECML/PKDD 2003 – Dubrovník (Cavtat) Tomáš Karban KEG 9. října 2003.

Slides:

Advertisements

Podobné prezentace

Zpracování SQL Lubomír Andrle 5. přednáška

Advertisements

Přednáška č. 3 Normalizace dat, Datová a funkční analýza

Fůze rozmazaných snímků ( Li, Manjunath, Mitra) kombinace „nejlepších“ dat volba „nejlepších“ - pomocí DWT, levý Mallat strom absolutní hodnota koeficientů.

Fraktálová komprese obrazu

Jiří Gazárek, Martin Havlíček Analýza nezávislých komponent (ICA) v datech fMRI, a ICA necitlivá ke zpoždění.

Rozložení EEG elektrod (10-20 system)

Statistika schématicky Tomáš Mrkvička. Základy znáte Konfidenční intervaly Porovnání 2 či více výběrů Regresní modely Základy časových řad.

Automated data mining Ing. Jan Černý Czech Technical University in Prague Faculty of Information Technology.

DOK „Umělá inteligence“ v DOK (i jinde). NEURONOVÉ SÍTĚ.

Strojové učení I (Mitchell93) učicí množina příkladů hledáme generalizaci učicí množiny ověřujeme na testovací množině pokrytí, přesnost, F-kriterium.

Optimalizace v simulačním modelování. Obecně o optimalizaci  Optimalizovat znamená maximalizovat nebo minimalizovat parametrech (např. počet obslužných.

20. Metody zpracování digitálních dat dálkového průzkumu

EKO/GISO – Modely prostorových dat.  Mnoho definic - jedno mají společné – Gisy pracují s prostorovými daty  Minimální GIS vždy spojuje databázi, prostorové.

STANOVENÍ NEJISTOT PŘI VÝPOŠTU KONTAMINACE ZASAŽENÉHO ÚZEMÍ

Difrakce na difrakční mřížce

Systémy pro podporu managementu 2

Téma hodiny: Chorvatsko Předmět: Zeměpis Ročník: 2., 3. ročník

Podnikové informační systémy C7 – Data Mining a získávání znalostí České vysoké učení technické v Praze Fakulta strojní ústav Řízení a ekonomiky podniku.

Informatika pro ekonomy II přednáška 10

Optimalizace versus simulace 9.přednáška. Obecně o optimalizaci  Maximalizovat nebo minimalizovat omezujících podmínkách.  Maximalizovat nebo minimalizovat.

Ústav automatizace a měřicí techniky

 BA_EM Electronic Marketing Pavel Agenda  Efektivní data mining jako zdroj relevantních dat o potřebách zákazníků.

Počítačová tomografie (CT)

Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)

Lineární regresní analýza

Jedno-indexový model a určení podílů cenných papírů v portfoliu

Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.

Jan Šaršon Milan Jaška 1Dobývání znalostí, MFF UK, 2008.

Tvorba simulačních modelů. Než vznikne model 1.Existence problému 2.Podrobnosti o problému a o systému 3.Jiné možnosti řešení ? 4.Existence podobného.

Databáze velké množství dat pevně dané struktury

Rozhodovací proces, podpory rozhodovacích procesů

ŘÍZENÍ DOPRAVY POMOCÍ SW AGENTŮ Richard Lipka, DSS

© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.

Návrh a implementace algoritmu SLAM pro mobilní robot

1. 2 Hypertextové odkazy Na stránce se mohou nacházet místa, na která když klepnete myší, dostanete se na jinou stránku, na jiný server nebo na jinou.

Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.

Optimalizace versus simulace 8.přednáška. Obecně o optimalizaci  Maximalizovat nebo minimalizovat omezujících podmínkách.  Maximalizovat nebo minimalizovat.

Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Dita Matesová, David Lehký, Zbyněk Keršner

© Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.

CW – 05 TEORIE ROZHODOVACÍCH PROCESŮ Ústav technologie, mechanizace a řízení staveb Fakulta stavební VUT v Brně Ing. Václav Rada, CSc. Leden 2009.

Martin Langhammer Antonín Wimberský. ÚVOD PŘEDPOKLADY Jednotný vstup Zadní SPZ Stejný úhel a vzdálenost záběru Pouze vodorovné záběry značek Obdélníkové.

Praktická využití UNS V medicínských aplikacích Jan Vrba 2006.

Odhad ceny akcií Martin Dörfler, Jiří Marchalín. Původní metoda  odhad ceny akcií pomocí neuronové sítě v závislosti na minulých hodnotách kombinací.

Elektrotechnická fakulta ČVUT KATEDRA KYBERNETIKY Vedoucí prof. Ing. Vladimír Mařík, DrSc. KATEDRA KYBERNETIKY ELEKTROTECHNICKÁ.

© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.

© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.

Cenová mapa podnájmů v Praze Ondřej Kmoch Tomáš Kohan

Neuronové sítě.

Využití neuronových sítí IVTH – Informační technologie ve vodním hospodářství Vypracoval: Jiří Vacek Z-92.

Využití technik dataminingu při rozpoznávání znaků Marek Kukačka Květen 2006.

Geografické informační systémy pojetí, definice, součásti

MS PowerPoint Pokročilé efekty a práce s multimédii.

Rozhodnutí o kvalitě místa bydlení dle různých atributů Projekt do ISR Jaromír Hloch ARI.

© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.

Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)

StatSoft CR Tel: Fax: Podbabská 16

Ing. Athanasios Podaras, Ph.D

Dobývání znalostí z databází dolování dat

Databázové systémy přednáška 13 – Analýza a reporting

Metody strojového učení

Proč statistika ? Dva důvody Popis Inference

Informatika pro ekonomy přednáška 8

Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.

Neuronové sítě.

Pokročilé neparametrické metody Validační techniky

CW-057 LOGISTIKA 44. PŘEDNÁŠKA Teorie grafů – 3 - stromy Leden 2017

Základy statistiky.

ANALÝZA A KLASIFIKACE DAT

Transkript prezentace:

ECML/PKDD 2003 – Dubrovník (Cavtat) Tomáš Karban KEG 9. října 2003

Historie konference European Conference on Machine Learning  14. ročník Principles and Practice of Knowledge Discovery in Databases  7. ročník Konference poprvé sloučeny v roce 2001

Cavtat Příjemné turistické městečko v Jižní Dalmácii, blízko Dubrovníku

Důležité informace měna: 1 kuna = 4,20 Kč €1 = 7,45 kuna rozloha: km 2 obyvatel: 4,9 mil. hl. město: Zagreb (707 tis.) jazyk: chorvatština obyvatelstvo:  78% Chorvati  12% Srbové  10% ostatní názvy měsíců v chorvatštině:  1. siječanj  2. veljača  3. ožujak  4. travanj  5. svibanj  6. lipanj  7. srpanj  8. kolovoz  9. rujan  10. listopad  11. studeni  12. prosinac

1 discovery challenge Letošní účast Celkem 322 přihlášených článků  40 přijato na ECML, 40 přijato na PKDD  Každý článek hodnocen třemi recenzenty 4 zvané přednášky 4 tutoriály 7 workshopů 2 tutoriály kombinované s workshopem

Association Rules Mining in Text Documents Vícestránkový textový dokument (  scanner) Analýza rozložení stránek (bloky textu, obrázky,…) OCR pro bloky textu Hierarchická reprezentace dokumentu v XML  obsahuje text, obrázky a informace o jejich vzájemné poloze a velikosti is_a(A,author) -> type(A,text) & pos_centered(A) & pos_above(A,B) & type(B,text) & layout_type(B,abstract) & pos_height(B,[ ])

Music Analysis snaha zkonstruovat klasifikátor do žánrů  jazz, techno, rock, classic, heavy metal diskrétní waveletová transformace  detekce rytmu, frekvenční analýza, střední a maximální energie, …  celkem 143 atributů dataset: 200 písniček zkoušení různých kombinací klasifikačních algoritmů problém s přeučením  výběr atributů podle různých kritérií (information gain, gain ratio, PCA) úspěšnost: kolem 80% další rozvoj: více písniček, neuronové sítě, hierarchie žánrů, zpěv a mluvené slovo

Integrated Classification of Audio, Video & Speech (low level features) Fraunhofer Institute (u zrodu MP3) cílem je klasifikovat záznamy zpravodajství a poté umožnit vyhledávání podle kategorií a klíčových slov dataset: 11 hodin německého zpravodajství zvuk  spektrální analýzy všeho druhu mluvené slovo  speech recognition  text  syllables recognition  slabiky, fonémy video  segmentace do jednotlivých záběrů, z každého záběru heuristicky vybrán jeden snímek jako reprezentant  barevné histogramy, střední délka záběrů a std. odchylka, …

Integrated Classification of Audio, Video & Speech (low level features) Výsledky (úspěšnost):  video 30-50% (reklamy 80-90%)  mluvené slovo 60-80% (reklamy 80%)  zvuk 50-60%  integrováno dohromady 60-80% paradoxně mírně horší než samotný zvuk Závěry studie  z mluveného slova je lépe extrahovat slabiky a fonémy, převod na text zavleče příliš mnoho chyb  na slabiky a fonémy lze výborně aplikovat (jazykově závislé) N-gramy, čímž se razantně zvýší přesnost  klasifikátor SVM srovnatelný s lidskými experty  je třeba vylepšit analýzu obrazu, ve stávající formě nepřináší téměř nic

Sailing as a Machine Learning Challenge Pieter Adriaans projekt Robosail (  od roku 1997  cílem je sestrojit samo-učící se autopilot pro závodní jachty řízené jednou rukou vstupem jsou informace ze spousty nespolehlivých senzorů rozmístěných na jachtě hybridní systém  systém agentů, strojové učení, data mining, rozhodování na základě pravidel  "skill-based system"

Sailing as a Machine Learning Challenge Pieter Adriaans Co je tak těžké?  nikdo neumí předem říci, jak vypadá optimální řešení  ostřílený námořník řídí na základě velkého množství faktorů, které vyhodnocuje intuicí na základě mnoha let zkušeností  mnoho faktorů ovlivňuje plavbu lodi směr, síla a turbulence větru, vlny, mořské proudy, mokré plachty fyzikální simulace jachty je prý mnohem náročnější než například simulace letadla  nelze udělat přesné a spolehlivé senzory, navíc je třeba šetřit energií

Sailing as a Machine Learning Challenge Pieter Adriaans nejlepší výsledky dosaženy získáním expertních "fuzzy" pravidel, strojové učení pak stanovuje optimální parametry příklad: "když pluješ ostře proti větru, pak při poryvech stáčej loď s větrem"  agent: když je zdánlivý směr větru mezi A a B vzhledem k lodi, pak plujeme proti větru  agent: pokud průměrný nárůst/pokles rychlosti větru je větší než D v posledním časovém okamžiku, pak je nárazový vítr  agent: stoč loď o Z po směru větru  ML: nalezení optimálních A, B, D, Z

Logistic Model Trees Niels Landwehr, Mark Hall, Eibe Frank rozhodovací strom  klasifikátor lineární regrese  predikce numerických hodnot kombinace (tzv. "model trees")  predikce numer. hodnot pro úlohy, které lze rozdělovat ortogonálními nadrovinami pokud lineární regresi nahradíme logistickou regresí, získáme opět klasifikátor, tzv. LMT  menší a přesnější modely než klasický rozhodovací strom  přesnější než rozhodovací strom i logist. regrese  bohužel pomalejší implementováno do systému Weka (3.3.6)

Taking Causality Seriously: Propensity Score Methodology Donald B. Rubin propensity score pomáhá odhadnout kauzální efekt intervencí – medicína, ekonomie, epidemiologie…  obzvláště tam, kde je obtížné provést randomizovaný experiment v marketingu je často zaměňována kauzalita pouhou časovou změnou, která nemusí mít příčinu v provedené intervenci (kampani, reklamnímu dopisu, večeři, …) řešení: nalézt propensity score, podle něj rozčlenit pozorované objekty a usuzovat po jednotlivých skupinách

Two-eyed Algorithms and Problems Leo Breiman two-eyed: takové algoritmy, které kromě přesných predikcí udávají také srozumitelný vhled do struktury dat RANDOM FOREST – kombinace stromových prediktorů, které jsou postaveny z nezávisle náhodně vybraných podmnožin vstupních atributů  výsledná třída daná hlasováním  stabilní, konvergující  overfitting není problém  lze použít i pro učení bez učitele, shlukování, detekci odlehlých případů a doplňování chybějících dat

Next Generation DM Tools: Power Laws and Self-Similarity Christos Faloutsos Použití fraktálů a soběpodobnosti k modelování  zatížení webserverů, rozložení galaxií po obloze, modelování tvaru pobřeží, ceny akcií, povrch mozku savců, krevní řečiště,… Power-law je často příbuzný problém, protože nevykazuje charakteristický rozměr  y = f(x) = x a  f(c * x) = c a * x a