© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

OBECNÉ OPTIMALIZAČNÍ MODELY
Dualita úloh lineárního programování a analýza citlivosti
LOGISTICKÉ SYSTÉMY 6/14.
Mechanika s Inventorem
Rovnice roviny Normálový tvar rovnice roviny
Seminární práce číslo: 7 Zpracoval : Vladimír KORDÍK T-4.C
Problematika a metody zpracování biomed. dat z pohledu jejich klasifikace Marcel Jiřina.
Koncepce rozvoje a řízení vědy a výzkumu
Rozhodněte o její pohyblivosti (určete počet stupňů volnosti).
Přednáška 12 Diferenciální rovnice
Strojové učení I (Mitchell93) učicí množina příkladů hledáme generalizaci učicí množiny ověřujeme na testovací množině pokrytí, přesnost, F-kriterium.
Memory-based Learning Učení založené na paměti (výtah z přednášky Waltera Daelemanse, GSLT, Göteborg 2003) + TiMBL -ukázka použití programu Jiří Mírovský,
FORMALIZACE PROJEKTU DO SÍŤOVÉHO GRAFU
Základy lineárního programování
LOGISTICKÉ SYSTÉMY 8/14.
Základní číselné množiny
 př. 4 výsledek postup řešení Zjistěte, zda jsou vektory a, b, c lineárně závislé. a=(1;2;3), b=(3;0;1), c=(-1;4;5)
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Formulace a vlastnosti úloh lineárního programování
Nelineární klasifikátory
Funkce více proměnných.
CW – 05 TEORIE ROZHODOVACÍCH PROCESŮ Ústav technologie, mechanizace a řízení staveb Fakulta stavební VUT v Brně © Ing. Václav Rada, CSc. 15. PŘEDNÁŠKA.
Lineární zobrazení.
Reprezentace klasifikátoru pomocí „diskriminant“ funkce
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Rozhodovací stromy.
Diferenciální počet funkcí více proměnných
Vektorová kvantizace (VQ) (Vector Quantization)
SIGNÁLY A SOUSTAVY V MATEMATICKÉ BIOLOGII
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Stabilita diskrétního regulačního obvodu
Gradientní metody Metoda největšího spádu (volný extrém)
Simplexová metoda pro známé počáteční řešení úlohy LP
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Počítačová chemie (5. přednáška)
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
W i ref (t+1) = W i ref (t) + h ci (t) [X(t) - W i ref (t)], i Nc h ci (t) 0, t  proces konverguje Algoritmy a struktury neuropočítačů ASN – P3 SOM algoritmus.
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
ANALÝZA A KLASIFIKACE DAT
SIGNÁLY A LINEÁRNÍ SYSTÉMY
© Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Klasifikace a rozpoznávání
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
Klasifikace a rozpoznávání Lineární klasifikátory.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
© Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík, CSc.
MME51 Ekonomicko-matematické metody 5 Prof. RNDr. Jaroslav Ramík, CSc.
MME41 Ekonomicko-matematické metody 4 Prof. RNDr. Jaroslav Ramík, CSc.
EMM21 Ekonomicko-matematické metody 2 Prof. RNDr. Jaroslav Ramík,CSc.
Laplaceova transformace
Ing. Milan Houška KOSA PEF ČZU v Praze
Nerovnice v součinovém tvaru
Kvantifikace množiny efektivních portfolií II
ČASOVÉ ŘADY (SIGNÁLY A LINEÁRNÍ SYSTÉMY )
ANALÝZA A KLASIFIKACE DAT
Klasifikace a rozpoznávání
Úloha syntézy čtyřčlenného rovinného mechanismu
Funkce více proměnných.
Kvantifikace množiny efektivních portfolií II
Lineární optimalizační model
4. Metoda nejmenších čtverců
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT
Transkript prezentace:

© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.

© Institut biostatistiky a analýz IV. LINEÁRNÍ KLASIFIKACE  pokra č ování

© Institut biostatistiky a analýz ALGORITMUS PODP Ů RNÝCH VEKTOR Ů Algoritmus podpůrných vektorů (Support vector machines - SVM) je metoda strojového učení. SVM hledá nadrovinu, která v prostoru příznaků optimálně rozděluje trénovací data.strojového učenínadrovinuprostoru příznakůtrénovací data OptimálníOptimální nadrovina je taková, že body leží v opačných poloprostorech a hodnota minima vzdáleností bodů od roviny je co největší. Jinými slovy, okolo nadroviny je na obě strany co nejširší pruh bez bodů. Na popis nadroviny stačí pouze nejbližší body, kterých je obvykle málo - tyto body se nazývají podpůrné vektory (angl. support vectors) a odtud název metody. Tato metoda je ze své přirozenosti binární, tedy rozděluje data do dvou množin. Rozdělující nadrovina je lineární funkcí v prostoru příznaků.lineární funkcí

© Institut biostatistiky a analýz ALGORITMUS PODP Ů RNÝCH VEKTOR Ů (SUPPORT VECTOR MACHINE – SVM) SEPARABILNÍ TŘÍDY mějme v učební množině obrazy x i, i=1,2,…,n, ze dvou lineárně separabilních klasifikačních tříd ω 1 a ω 2 cílem je určení parametrů definující hranici y(x) = w T x + w 0 = 0, jejíž pomocí klasifikátor správně zařadí všechny obrazy z učební množiny

© Institut biostatistiky a analýz ALGORITMUS PODP Ů RNÝCH VEKTOR Ů SEPARABILNÍ T Ř ÍDY  připomenutí: vzdálenost jakéhokoliv bodu od klasifikační hranice je

© Institut biostatistiky a analýz  určeme hodnoty váhového vektoru w a w 0 tak, aby hodnota y(x) v nejbližším bodě třídy ω 1 byla rovna 1 a pro ω 2 rovna -1 ALGORITMUS PODP Ů RNÝCH VEKTOR Ů SEPARABILNÍ T Ř ÍDY

© Institut biostatistiky a analýz ALGORITMUS PODP Ů RNÝCH VEKTOR Ů SEPARABILNÍ T Ř ÍDY  máme „ochranné“ klasifikační pásmo o šířce a chceme nebo také - chceme najít minimální za předpokladu, že kde t i =+1 pro ω 1 a t i =-1 pro ω 2 (minimalizace normy maximalizuje klasifikační pásmo)

© Institut biostatistiky a analýz  nelineární kvadratická optimalizační úloha se soustavou podmínek formulovaných pomocí lineárních nerovností  Karushovy-Kuhnovy-Tuckerovy podmínky praví, že pro to musí být splněno kde λ je vektor Langrangových součinitelů a L(w,w0, λ) je Lagrangova funkce definována vztahem ALGORITMUS PODP Ů RNÝCH VEKTOR Ů SEPARABILNÍ T Ř ÍDY

© Institut biostatistiky a analýz  když se všechny vztahy z předcházející strany dají dohromady dostaneme ALGORITMUS PODP Ů RNÝCH VEKTOR Ů SEPARABILNÍ T Ř ÍDY podpůrné vektory

© Institut biostatistiky a analýz ALGORITMUS PODP Ů RNÝCH VEKTOR Ů NESEPARABILNÍ T Ř ÍDY  stále ale platí, že klasifikační „ochranné“ pásmo je definováno dvěma paralelními „nadrovinami“ definovanými w T x + w 0 = ± 1  obrazy z trénovací množiny patří do následujících tří kategorií:  obraz leží vně pásma a je správně klasifikován [platí podmínka t i (w T x+w 0 )1 i=1,2,…,n];  obraz leží uvnitř pásma a je správně klasifikován (čtverečky) [platí pro ně 0 t i (w T x+w 0 )<1];  obraz je chybně klasifikován (kolečka) [platí pro něj t i (w T x+w 0 )<0]

© Institut biostatistiky a analýz  všechny tři kategorie obrazů mohou být řešeny na základě pro daný typ specifických podmínek t i (w T x+w 0 )1-ξ i pomocí nově zavedených proměnných ξ i (tzv. volné proměnné - slack variables). První kategorie je pro ξ i =0, druhá 0 1. Cílem návrhu v tomto případě je vytvořit co nejširší „ochranné“ pásmo, ale současně minimalizovat počet obrazů s ξ i >0, což vyjadřuje kritérium se ztrátovou funkcí kde ξ je vektor parametrů ξ i a ALGORITMUS PODP Ů RNÝCH VEKTOR Ů NESEPARABILNÍ T Ř ÍDY C je kladná korekční konstanta, která váhuje vliv obou členů v uvedeném vztahu.

© Institut biostatistiky a analýz  optimalizace je obtížná, protože ztrátová funkce je nespojitá (díky funkci I()). V takových případech se proto používá náhradní ztrátová funkce  a cílem návrhu je minimalizovat J(w,w 0,ξ) za podmínek, že t i (w T x+w 0 )1-ξ i a ξ i 0, i=1,2,…,n.  Problém lze opět řešit pomocí Langrangeovy funkce ALGORITMUS PODP Ů RNÝCH VEKTOR Ů NESEPARABILNÍ T Ř ÍDY

© Institut biostatistiky a analýz  příslušné Karushovy-Kuhnovy-Tuckerovy podmínky jsou ALGORITMUS PODP Ů RNÝCH VEKTOR Ů NESEPARABILNÍ T Ř ÍDY

© Institut biostatistiky a analýz  z čehož platí požadavek na maximalizaci L(w,w 0,λ,ξ,μ) za podmínek ALGORITMUS PODP Ů RNÝCH VEKTOR Ů NESEPARABILNÍ T Ř ÍDY

© Institut biostatistiky a analýz ALGORITMUS PODP Ů RNÝCH VEKTOR Ů  Důležitou součástí techniky Support vector machines je jádrová transformace (angl. kernel transformation) prostoru příznaků dat do prostoru transformovaných příznaků typicky vyšší dimenze. Tato jádrová transformace umožňuje převést původně lineárně neseparovatelnou úlohu na úlohu lineárně separovatelnou, na kterou lze dále aplikovat optimalizační algoritmus pro nalezení rozdělující nadroviny. jádrová transformacedimenze  Používají se různé jádrové transformace. Intuitivně, vyjadřují podobnost dat, tj. svých dvou vstupních argumentů.  Výhodou této metody (a jiných metod založených na jádrové transformaci) je, že transformace se dá definovat pro různé typy objektů, nejen body v R n. Např. pro grafy, stromy, posloupnosti DNA...

© Institut biostatistiky a analýz ALGORITMUS PODP Ů RNÝCH VEKTOR Ů

© Institut biostatistiky a analýz ALGORITMUS PODP Ů RNÝCH VEKTOR Ů dvourozměrný prostor s oddělovací hranicí ve tvaru x x 2 2 ≤ 1 tatáž situace zobrazená do trojrozměrného prostoru (x 1 2, x 2 2, 2x 1 x 2 ) – kruhová hranice se stane lineární

© Institut biostatistiky a analýz  přímé rozšíření řešení případu dichotomického problému podle schématu  „jedna versus zbytek“ – M dichotomických úloh; každý klasifikátor je trénován podle schématu s hraniční funkcí y i (x)>0 pro obrazy z ω i a y i (x)<0 pro všechny ostatní;  „jedna versus jedna“ – M(M-1)/2 binárních klasifikátorů  klasifikační schéma používající K binárních klasifikátorů, přičemž jednotlivé shluky obrazů z jednotlivých tříd jsou stanoveny navrhovatelem a jsou kódovány vektory o délce K, jehož hodnoty jsou +1 nebo -1. např. pro M=4 a K=6 může být taková matice ALGORITMUS PODP Ů RNÝCH VEKTOR Ů VÍCE KLASIFIKA Č NÍCH T Ř ÍD

© Institut biostatistiky a analýz Příprava nových učebních materiálů pro obor Matematická biologie je podporována projektem ESF č. CZ.1.07/2.2.00/ „ VÍCEOBOROVÁ INOVACE STUDIA MATEMATICKÉ BIOLOGIE “ INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ