Klasifikace a rozpoznávání Lineární klasifikátory.

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

Optimalizace bez omezení (unconstraint)
RF Jednorychlostní stacionární transportní rovnice Časově a energeticky nezávislou transportní rovnici, která popisuje chování monoenergetických.
Algoritmy a struktury meuropočítačů ASN – C2
Rovnice roviny Normálový tvar rovnice roviny
Lineární model posteriorní hustota pravděpodobnosti lineární model:
PA081 Programování numerických výpočtů
Rozhodněte o její pohyblivosti (určete počet stupňů volnosti).
Lineární regresní analýza Úvod od problému
Přednáška 12 Diferenciální rovnice
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Klasifikace a rozpoznávání
Optimalizační úlohy i pro nadané žáky základních škol
Umělé neuronové sítě a Support Vector Machines
Matice.
Metody nelineárního programování
Nelineární klasifikátory
Funkce více proměnných.
Lineární regrese.
Rozpoznávání vzorů bez učitele (klastrování)
Reprezentace klasifikátoru pomocí „diskriminant“ funkce
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Rozhodovací stromy.
Odhad metodou maximální věrohodnost
Princip maximální entropie
Experimentální fyzika I. 2
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Rozpoznávání v řetězcích
Gradientní metody Metoda největšího spádu (volný extrém)
AKD VII.
© Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík, CSc.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Lineární programování - charakteristika krajních bodů
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
W i ref (t+1) = W i ref (t) + h ci (t) [X(t) - W i ref (t)], i Nc h ci (t) 0, t  proces konverguje Algoritmy a struktury neuropočítačů ASN – P3 SOM algoritmus.
Korelace.
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Podobnost trajektorií Jiří Jakl Úvod - využití Rozpoznáváni ručně psaných textů GPS navigace Analýza pohybu pracovníku v budovách Predikce.
Vyhledávání vzorů (template matching)
Algoritmy a struktury neuropočítačů ASN - P14 Hopfieldovy sítě Asociativní paměti rekonstrukce původních nezkreslených vzorů předkládají se neúplné nebo.
Klasifikace a rozpoznávání
Odhady parametrů.
Problém majáku předpokládáme, že l známe  x0x0 xixi l chceme najít odhad x 0 (věrohodnost) maximální věrohodnost.
Kvadratické nerovnice
Martin Langhammer Antonín Wimberský. ÚVOD PŘEDPOKLADY Jednotný vstup Zadní SPZ Stejný úhel a vzdálenost záběru Pouze vodorovné záběry značek Obdélníkové.
Klasifikace a rozpoznávání
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Ryze kvadratická rovnice
Neuronové sítě. Vývoj NS 1943 – W. McCulloch, W. Pittse – první jednoduchý matematický model neuronu 1951 – M. Minsky - první neuropočítač Snark 1957.
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
© Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík, CSc.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Složitost algoritmu Vybrané problémy: Při analýze složitosti jednotlivých algoritmů často narazíme na problém, jakým způsobem vzít v úvahu velikost vstupu.
R OVNICE A NEROVNICE Rovnice v součinovém tvaru VY_32_INOVACE_M1r0104 Mgr. Jakub Němec.
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.
Kvantifikace množiny efektivních portfolií II
ANALÝZA A KLASIFIKACE DAT
Klasifikace a rozpoznávání
Ryze kvadratická rovnice
Kvantifikace množiny efektivních portfolií II
Lineární funkce a její vlastnosti
Dynamické systémy Topologická klasifikace
ANALÝZA A KLASIFIKACE DAT
Lineární regrese.
ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT
ANALÝZA A KLASIFIKACE DAT
ANALYTICKÁ GEOMETRIE Analytická geometrie je část geometrie, která v euklidovské geometrii zkoumá geometrické útvary pomocí algebraických a analytických.
Transkript prezentace:

Klasifikace a rozpoznávání Lineární klasifikátory

Opakování - Skalární součin. wx x = · x 1 x 2 ¸ w = · w 1 w 2 ¸ w T x = £ w 1 w 2 ¤ · x 1 x 2 ¸ = w 1 x 1 + w 2 x 2 w T x j w j

Lineární klasifikátor Vyber třídu C 1 pokud y(x) > 0 a jinak vyber třídu C 2 y ( x ) = w T x + w 0 y ( x ) = f ( w T x + w 0 ) Zobecněný lineární klasifikátor kde f se nazývá aktivační funkce

Lineární klasifikátor. w x y ( x ) j w j ¡ w 0 j w j y > 0 y < 0 y = 0 x 1 x 2 w T x j w j w T x j w j = ¡ w 0 j w j + y ( x ) j w j y ( x ) = w T x + w 0

Perceptron Jednoduchý lineární klasifikátor s aktivační funkcí: Samotná aktivační funkce v tomto případě nic nezmění – rozhodování na základě y(x) > 0 by vedlo ke stejnému výsledku – ale pro učící se algoritmus bude výhodné definovat si požadovaný výstup jako: Pro další zjednodušení předpokládejme, ze w 0 je “nultý” koeficient vektoru w a odpovídající vstup x 0 je vždy 1. Můžeme tedy psát pouze: y ( x ) = f ( w T x )

Perceptron – učící algoritmus Cyklicky procházej jednotlivé trénovací vzory a vždy když narazíš na špatně klasifikovaný vzor kde změň vektor w takto: Lze dokázat, že pokud jsou data lineárně separovatelná, tak, algoritmus vždy nalezne řešení – konverguje. V opačném případě, ale nikdy nekonverguje w ¿ + 1 = w ¿ + x n t n y ( x n ) 6 = t n

Perceptron Ale které řešení je to správné? Řešení, které poskytne učící algoritmus perceptronu záleží na inicializaci – počátečním w D R Nejvzdálenější bod od počátku SVM řešení Algoritmus konverguje v méně než (R/D) 2 krocích

Opakování - MAP klasifikátor Mějme 2 třídy C 1 a C 2 –Pro daný příznak x vyber třídu C s větší posteriorní pravděpodobností P(C|x) –Vyber C 1 pouze pokud: l n P ( x j C 1 ) P ( C 1 ) > l n P ( x j C 2 ) P ( C 2 ) P ( x j C 1 ) P ( C 1 ) P ( x ) > P ( x j C 2 ) P ( C 2 ) P ( x ) P ( C 1 j x ) > P ( C 2 j x ) l n P ( x j C 1 ) P ( C 1 ) P ( x j C 2 ) P ( C 2 ) > 0

Pravděpodobnostní generativní model Modelujme rozložení tříd gaussovskym rozložením: Pokud náš model omezíme tak, ze každá třída má svou střední μ i hodnotu, ale kovarianční matice Σ je společná pro obě třídy, tak můžeme psát: kde y ( x ) = l n P ( x j C 1 ) P ( C 1 ) P ( x j C 2 ) P ( C 2 ) = w T x + w 0

Maximum likelihood odhad parametrů Hledáme parametry modelu kde t i je třída do které patří vzor x i a μ t i je střední hodnota této třídy Řešením jsou : –střední hodnoty spočítané z dat jednotlivých tříd –Kovarianční matice, která je váhovaným průměrem kovariančních matic spočtených z dat jednotlivých tříd f ¹ 1 ; ¹ 2 ; § ; P ( C 1 ) ; P ( C 2 ) g = argmax f ¹ 1 ; ¹ 2 ; § ; P ( C 1 ) ; P ( C 2 ) g Y i p ( x i j ¹ t i ; § ) P ( C t i )

V případě kdy ovšem naše data nerespektují předpoklad gaussovských rozložení a sdílené kovarianční matice. Klasifikátor může selhat – fialová rozhodovací linie Lepší výsledky dostaneme s diskriminativně natrénovaným klasifikátorem, který bude vysvětlen později – zelená rozhodovací linie

Opakování LDA Snažíme se data promítnout do takového směru, kde – Maximalizujeme vzdálenost mezi středními hodnotami tříd – Minimalizujeme průměrnou varianci tříd Maximalizujeme tedy Pro dvě třídy je w totožné s tím které jsme obdrželi pro náš generativní klasifikátor. Generativní klasifikátor ovšem zvolí i práh w 0

Generativní model a zobecněny lineární klasifikátor Nyní použijme zobecněný lineární klasifikátor kde stále platí, že a kde aktivační funkce je logistická sigmoida Potom lze hodnotu tohoto zobecněného linearního klasifikátoru přímo interpretovat jako posteriorní pravděpodobnost třídy C 1 w T x + w 0 = l n P ( x j C 1 ) P ( C 1 ) P ( x j C 2 ) P ( C 2 ) y ( x ) = ¾ ( w T x + w 0 )

Jiné generativní lineární klasifikátory Lineární klasifikátor dostaneme nejen pro gaussovské rozložení, ale pro celou třídu rozložení s exponencialní rodiny, které lze zapsat v následující formě: kde vektor λ k má každá třída svůj vlastní, zatím co parametr s je sdíleny všemi třídami

Nelineární mapování vstupního vektoru Nelze-li původní data lineárně oddělit, možná pomůže jejich nelineární transformace do potenciálně vysocerozměrného prostoru – hlavní myšlenka „kernel methods“ které budou vysvětleny příště V našem příkladu pomohlo i mapování dvourozměrných dat do dvou gaussovských funkcí

Lineární logistická regrese Uvažujme opět pravděpodobnostní model kde opět pro zjednodušení x 0 je vžy 1 a nemusíme tedy explicitně zavádět w 0. Nyní ale budeme parametry w odhadovat přímo tak abychom maximalizovali pravděpodobnost, že všechna trénovací data budou rozpoznána správně Kde t je vektor korektních identit tříd t i pro jednotlivé vstupní vektory x n. Pro zjednodušení zápisu předpokládejme, že t n = 1, pokud x n paří do třídy C 1 a t n = 0 pokud x n paří do třídy C 2.Potom muzeme psát p ( C 1 j x ) = y ( x ) = ¾ ( w T x ) p ( t j X ) = Y n 2 C 1 y ( x n ) Y n 2 C 2 ( 1 ¡ y ( x n )) p ( t j X ) = Y n y t n n ( 1 ¡ y n ) 1 ¡ t n

Lineární logistická regrese – odhad parametrů Lépe se nám bude pracovat s logaritmem naší objektivní funkce, což je chybová funkce známo jako vzájemná entropie Hledáme minimum této funkce, takže derivujeme abychom dostali gradient Pokud najdeme parametry w pro které je gradient nulový, našli jsme optimum chybové funkce. To však není snadné nalézt analyticky. Budeme řešit nymericky, např pomocí gradient descent r E ( w ) = N X n = 1 ( y n ¡ t n ) x n

Lineární logistická regrese – odhad parametrů Rychlejší konvergenci dosáhneme pomocí Newton-Raphson optimalizace: –Kolem stávajícího řešení w (old) aproximujeme chybovou funkci  E pomoci Taylorova rozvoje druhého řádu, čímž obdržíme kvadratickou formu (vícerozměrné zobecnění kvadratické funkce). –Jako nové řešení zvolíme to, kde má tato kvadratická forma minimum. w ( new ) = w ( o ld ) ¡ ( X T RX ) ¡ 1 X T ( y ¡ t ) kde H = X T R X je matice druhých derivací (Hessian matrix). R je diagonální matice s hodnotami na diagonále:

Problém s více třídami Klasifikace –jeden proti všem –Každý s každým

Lineární klasifikátor – více tříd Nejlépe je mít jednu lineární funkci pro každou třídu k Vyber třídu s největším y k (x) Rozhodovací linie je opět lineární dána Kde k a j jsou dvě nejpravděpodobnější třídy pro dané x Pro dvě třídy řešení degraduje k tomu co už jsme viděli

Více tříd – generativní model