Klasifikace a rozpoznávání

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

Neparametrické odhady hustoty pravděpodobnosti
Problematika a metody zpracování biomed. dat z pohledu jejich klasifikace Marcel Jiřina.
A5M33IZS – Informační a znalostní systémy Datová analýza I.
Odhady parametrů základního souboru
ZÁKLADY EKONOMETRIE 4. cvičení PREDIKCE MULTIKOLINEARITA
3. PRINCIP MAXIMÁLNÍ VĚROHODNOSTI
Decision Trees & Genetic Programming 1 Klasické DT V některých případech nepraktické.
Získávání informací Získání informací o reálném systému
Pravděpodobnost a statistika opakování základních pojmů
Náhodná proměnná Rozdělení.
Linking Words and phrases
Nechť (, , P) je pravděpodobnostní prostor:
Některá diskrétní a spojitá rozdělení náhodné veličiny.
Číslo projektuCZ.1.07/1.5.00/ Číslo materiáluVY_32_INOVACE_251 Název školyGymnázium, Tachov, Pionýrská 1370 Autor Ing. Roman Bartoš Předmět Informatika.
Počítačová grafika III – Monte Carlo integrování II Jaroslav Křivánek, MFF UK
TEORIE HER.
Vybraná rozdělení spojité náhodné veličiny
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Reprezentace klasifikátoru pomocí „diskriminant“ funkce
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Rozhodovací stromy.
Odhad metodou maximální věrohodnost
Modely uživatelských preferencí. Obsah Jak se vyjadřují preference Modely preferencí a jejich učení Model založený na atributech Kolaborativní filtrování.
ODDS RATIO Relationships between categorical variables in contingency table Jiří Šafr jiri.safr(AT)seznam.cz updated 29/12/2014 Quantitative Data Analysis.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
AKD VII.
Obchodní akademie, Ostrava-Poruba, příspěvková organizace Vzdělávací materiál/DUM Businessland / Making Contracts 06B16 AutorLadislava Pechová Období vytvořeníLeden.
2. Vybrané základní pojmy matematické statistiky
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Náhodný vektor Litschmannová, 2007.
Opakování lekce 4,5,
Jak postupujeme vpřed v testování? Jak se nám daří vytvářet denní buildy? Stíháme opravovat chyby? Jak kvalitně chyby opravujeme?
Normální rozdělení a ověření normality dat
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
1 Rozpoznávač jeté vařečky s HMM Honza Černocký
© Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Odhady parametrů.
Problém majáku předpokládáme, že l známe  x0x0 xixi l chceme najít odhad x 0 (věrohodnost) maximální věrohodnost.
Molekulová fyzika 3. přednáška „Statistický přístup jako jediná funkční strategie kinetické teorie“
Klasifikace a rozpoznávání
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Podmíněná pravděpodobnost: Bayesův teorém
Aritmetický průměr - střední hodnota
Klasifikace a rozpoznávání Lineární klasifikátory.
© Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík, CSc.
Course Outline1. Instructor: Martin Hála, PhD. Mathematics DPT, B105,  Further information and downloads on my personal website:
Projekt Anglicky v odborných předmětech, CZ.1.07/1.3.09/ je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. Tutorial:
Míra konfliktu pozorování ● Pozorování ● BT=y, UT=no, Sc=y ● Vyjde Pr(0.12,0.88), ● ale nakolik věříme našim pozorováním a tím i výsledku? ● Kladná míra.
Teorie portfolia Markowitzův model.
Aplikace Hidden Conditional Random Fields for Gesture Recognition Sy Bor Wang Ariadna Quattoni Louis-Philippe Morency David Demirdjian Trevor Darrell Computer.
Odhady odhady bodové a intervalové odhady
Induktivní statistika
Induktivní statistika
Induktivní statistika
Klasifikace a rozpoznávání
Základy zpracování geologických dat Rozdělení pravděpodobnosti
ANALÝZA A KLASIFIKACE DAT
Proč statistika ? Dva důvody Popis Inference
Klasifikace a rozpoznávání
Spojitá a kategoriální data Základní popisné statistiky
Typy proměnných Kvalitativní/kategorická binární - ano/ne
Introduction to MS Dynamics NAV (Expected Costs)
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT
Induktivní statistika
ANALÝZA A KLASIFIKACE DAT
Transkript prezentace:

Klasifikace a rozpoznávání Bayesovská rozhodovací teorie

Extrakce příznaků Granáty Jablka  Četnost  Váha [dkg]

Pravděpodobnosti - diskrétní příznaky Uvažujme diskrétní příznaky – „váhové kategorie“ Nechť tabulka reflektuje skutečné pravděpodobnosti jednotlivých kategorií 1 6 12 15 2 50 4 23 14 3 100 nejlehčí 0.0 - 0.1 lehčí 0.1 - 0.2 lehký 0.2 - 0.3 střední 0.3 – 0.4 těžký 0.4 – 0.5 těžší 0.5 – 0.6 nejtěžší 0.6 – 0.7 [kg]

Apriorní pravděpodobnost – Stav věci Hádej co mám za zády, jablko nebo granát? Klasifikační pravidlo: Vyber čeho je nejvíc Třída s největší apriorní pravděpodobností (a-priori probability) P ( g r a n ¶ t ) = 5 1 P ( j a b l k o ) = 1 5 P ! ( ) = 1 1 6 12 15 2 50 4 23 14 3 100 nejlehčí 0.0 - 0.1 lehčí 0.1 - 0.2 lehký 0.2 - 0.3 střední 0.3 – 0.4 těžký 0.4 – 0.5 těžší 0.5 – 0.6 nejtěžší 0.6 – 0.7 [kg]

Společná pravděpodobnost Je to těžké. Hádej co to je? Klasifikační pravidlo: Ve sloupci váhové kategorie vyber nejčastější třídu Třída s největší společnou pravděpodobností (joint probability) – pravděpodobnost chlívečku. … ale také největší podmíněnou pravděpodobností (viz další slajd) P ( g r a n ¶ t ; · e z k y ) = 1 2 5 P ( j a b l k o ; t · e z ¶ y ) = 6 1 5 P ! ; x ( ) = 1 1 6 12 15 2 50 4 23 14 3 100 nejlehčí 0.0 - 0.1 lehčí 0.1 - 0.2 lehký 0.2 - 0.3 střední 0.3 – 0.4 těžký 0.4 – 0.5 těžší 0.5 – 0.6 nejtěžší 0.6 – 0.7 [kg]

Podmíněná pravděpodobnost Je to těžké. Z jakou pravděpodobností je to granát? Podmíněnou pravděpodobnost (conditional probability) - pravděpodobnost chlívečku dáno sloupec P ( g r a n ¶ t j · e z k y ) = 1 2 + 6 1 6 12 15 2 50 4 23 14 3 100 nejlehčí 0.0 - 0.1 lehčí 0.1 - 0.2 lehký 0.2 - 0.3 střední 0.3 – 0.4 těžký 0.4 – 0.5 těžší 0.5 – 0.6 nejtěžší 0.6 – 0.7 [kg]

Ještě nějaké další pravděpodobnosti ( g r a n ¶ t ) = 5 1 P ( g r a n ¶ t j · e z k y ) = 1 2 + 6 P ( t · e z k ¶ y ) = 1 2 + 6 5 P ( t · e z k ¶ y j g r a n ) = 1 2 5 P ( g r a n ¶ t ; · e z k y ) = j 1 2 5 P ( g r a n ¶ t ; · e z k y ) = j 1 2 5 1 6 12 15 2 50 4 23 14 3 100 nejlehčí 0.0 - 0.1 lehčí 0.1 - 0.2 lehký 0.2 - 0.3 střední 0.3 – 0.4 těžký 0.4 – 0.5 těžší 0.5 – 0.6 nejtěžší 0.6 – 0.7 [kg]

Bayesův teorém P ( ! j x ) = P ( ! ; x ) = j P ( x ) = ; ! P ( t · e z Posteriorní pravděpodobnost (posterior probability) Věrohodnost (likelihood) Apriorní pravděpodobnost (prior probability) P ( ! j x ) = Evidence Věrohodnost nás zatím moc nezajímala, ale za chvíli to bude hlavní co se budeme snažit odhadovat z trénovacích dat. Již dříve jsme viděli že (product rule): Pro evidenci platí (sum rule): např.: P ( ! ; x ) = j P ( x ) = ! ; P ( t · e z k ¶ y ) = g r a n ; + j b l o 1 2 5 6

Maximum a-posteriori (MAP) klasifikátor Mějme 2 třídy ω1 a ω2 Pro daný příznak x vyber třídu ω s větší posteriorní pravděpodobností P(ω|x) Vyber ω1 pouze pokud: P ( ! 1 j x ) > 2 P ( x j ! 1 ) > 2 P ( ! 1 ; x ) > 2

Maximum a-posteriori (MAP) klasifikátor Pro každé x minimalizuje pravděpodobnost chyby: P(chyby|x) = P(ω1|x) pokud vybereme ω2 P(chyby|x) = P(ω2|x) pokud vybereme ω1 Pro dané x vybíráme třídu ω s větším P(ω|x)  minimalizace chyby Musíme ovšem znát skutečná rozložení P(ω|x) nebo P(x,ω) nebo P(x|ω) a P(ω), které reflektují rozpoznávaná data Obecně pro N tříd Vyber třídu s největší posteiorní pravděpodobností: a r g m x ! P ( j ) = p

Spojité příznaky P ( x 2 a ; b ) = R p d p ( x j ! ) P(.) – bude pravděpodobnost p(.) – bude hodnota funkce rozložení pravděpodobnosti P ( x 2 a ; b ) = R p d Bude nás zajímat funkce rozložení pravděpodobnosti příznaků podmíněné třídou p ( x j ! ) 3.5 Plocha pod funkci musí být 1 Hodnoty mohou být ale libovolné kladné 0.7 [kg]

Bayesův teorém – spojité příznaky ( ! j x ) = p p ( x j ! ) p ( ! ; x ) = j P p ( ! j x ) 3.5 2.5 1  x  x  x

MAP klasifikátor – spojité příznaky Opět se budeme rozhodovat podle: nebo P ( ! 1 ; x ) > 2 P ( ! 1 j x ) > 2 p ( ! ; x ) p ( ! j x ) 2.5 1 Na obrazcích vidíme, že obě pravidla vedou ke stejným rozhodnutím  x  x

MAP klasifikátor – pravděpodobnost chyby Říkali jsme, že MAP klasifikátor minimalizuje pravděpodobnost chyby Plocha pod funkci společného rozložení pravděpodobnosti p(ω,x) v určitém intervalu x je pravděpodobnost výskytu vzoru třídy ω s příznakem v daném intervalu Jaká je tedy celková pravděpodobnost, že klasifikátor udělá chybu? Pravděpodobnost, že modrá třída je chybně klasifikována jako červená Jakákoli snaha posunout hranice povede jen k větší chybě 2.5 2.5 p ( ! ; x ) p ( ! ; x )    x  x

Posteriorní pravděpodobnosti pro různé apriorní pravděpodobnosti Změna apriorních pravděpodobností tříd může vézt k různým rozhodnutím P ( ! 1 ) = 3 ; 2 P ( ! 1 ) = 2 ; P ( ! 1 ) = 9 ; 2  x  x  x

Vícerozměrné příznaky Místo jednorozměrného příznaku máme N rozměrný příznakový vektor x = [x1, x2, …, xN] např. [váha, červenost] MAP klasifikátor opět vybírá nejpravděpodobnější třídu p ( ! ; x )  x1 x2

Parametrické modely Pro rozpoznávání s MAP klasifikátorem jsme doposud předpokládali, že známe skutečná rozloženi P(ω|x) nebo P(x,ω) nebo P(x|ω) a P(ω) Ve skutečnosti ale většinou známe jen trénovací vzory Pokusíme se tato rozložení odhadnout z dat – budeme trénovat statistické modely unvoiced voiced silence

Parametrické modely Můžeme se pokusit modelovat přímo posteriorní pravděpodobnost, a tu použít přímo k rozpoznávání P(ω|x) tzv. diskriminativní trénování Ale o tomto bude řeč až později Běžnější je odhadovat rozložení P(x|ω) a P(ω) Tato rozložení popisují předpokládaný proces generování dat – generativní modely Nejprve se musíme rozhodnout pro formu modelu, který použijeme. (např. gaussovské rozložení) unvoiced voiced silence

Gaussovské rozložení (jednorozměrné) x ; ¹ ¾ 2 ) = 1 p ¼ e ¡

Gaussovské rozložení (dvourozměrné) x ; ¹ § ) = 1 p 2 ¼ P j e ¡ T

Odhad parametrů modelu s maximální věrohodností ^ £ c l a s M L = r g m x Y i 2 p ( j ) Hledáme taková nastavení parametrů rozložení pravděpodobnosti Θ, které maximalizuje věrohodnost trénovacích dat (Maximum Likelihood, ML) V následujících příkladech předpokládáme, že odhadujeme parametry nezávisle pro jednotlivé třídy. Pro zjednodušení notace tedy u rozložení neuvádíme závislost na třídě ω, pouze na jejích parametrech Θ. Modely kterými se budeme zabývat jsou: Gaussovské rozloženi Směs gaussovských rozložení (Gaussian Mixture Model, GMM) V následujících přednáškách přibudou další (např. HMM)

Gaussovské rozložení (jednorozměrné) x ; ¹ ¾ 2 ) = 1 p ¼ e ¡ ML odhad parametrů: ¹ = 1 T P i x ¾ 2 = 1 T P i ( x ¡ ¹ )

Gaussovské rozložení (dvourozměrné) x ; ¹ § ) = 1 p 2 ¼ P j e ¡ T ML odhad of parametrů: ¹ = 1 T P i x § = 1 T P i ( x ¡ ¹ )

Směs gaussovských rozložení GMM p ( x j £ ) = P c N ; ¹ § kde £ = f P c ; ¹ § g P c = 1

Gaussian Mixture Model Evaluation: p ( x j £ ) = P c N ; ¹ ¾ 2 Vzoreček můžeme chápat jen jako něco co definuje tvar funkce hustoty pravděpodobnosti… nebo jej můžeme vidět jako složitější generativní model,který generuje příznaky následujícím způsobem: Napřed je jedna z gaussovských komponent vybrána tak aby respektovala apriorní pravděpodobnosti Pc Příznakový vektor se generuje z vybraného gaussovského rozložení. Pro vyhodnoceni modelu ale nevíme, která komponenta příznakový vektor generovala a proto musíme marginalizovat (suma přes gaussovské komponenty násobené apriorními pravděpodobnostmi)

Training GMM –Viterbi training Intuitive and Approximate iterative algorithm for training GMM parameters. Using current model parameters, let Gaussians to classify data as the Gaussians were different classes (Even though the both data and all components corresponds to one class modeled by the GMM) Re-estimate parameters of Gaussian using the data associated with to them in the previous step. Repeat the previous two steps until the algorithm converge.

Training GMM – EM algorithm Expectation Maximization is very general tool applicable in many cases were we deal with unobserved (hidden) data. Here, we only see the result of its application to the problem of re-estimating parameters of GMM. It guarantees to increase likelihood of training data in every iteration, however it does not guarantees to find the global optimum. The algorithm is very similar to Viterbi training presented above. Only instead of hard decisions, it uses “soft” posterior probabilities of Gaussians (given the old model) as a weights and weight average is used to compute new mean and variance estimates. ^ ¹ ( n e w ) c = P i ° x ^ ¾ 2 c ( n e w ) = P i ° x ¡ ¹ ° c i = P N ( x ; ^ ¹ o l d ) ¾ 2