Problematika a metody zpracování biomed. dat z pohledu jejich klasifikace Marcel Jiřina.

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

Diskrétní matematika Opakování - příklady.
Plošná interpolace (aproximace)
Memory-based Learning Učení založené na paměti (výtah z přednášky Waltera Daelemanse, GSLT, Göteborg 2003) + TiMBL -ukázka použití programu Jiří Mírovský,
3. PRINCIP MAXIMÁLNÍ VĚROHODNOSTI
VÍCEKRITERIÁLNÍ ROZHODOVÁNÍ I.
Získávání informací Získání informací o reálném systému
Shlukovací algoritmy založené na vzorkování
Fakulta životního prostředí Katedra informatiky a geoinformatiky
Shluková analýza.
STANOVENÍ NEJISTOT PŘI VÝPOŠTU KONTAMINACE ZASAŽENÉHO ÚZEMÍ
Náhodný jev A E na statistickém experimentu E - je určen vybranou množinou výsledků experimentu: výsledku experimentu lze přiřadit číslo, náhodnou proměnnou.
IGrid index Roman Krejčík. Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání.
Nelineární klasifikátory
1 Kognitivní inspirace třídění na základě závislostí atributů Jan Burian Eurfomise centrum – Kardio, Ústav informatiky AV ČR Článek je dostupný na WWW:
Normální (Gaussovo) rozdělení
Lineární regresní analýza
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Reprezentace klasifikátoru pomocí „diskriminant“ funkce
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Rozhodovací stromy.
Odhad metodou maximální věrohodnost
Teorie her pro manažery, redistribuční systémy Mikroekonomie magisterský kurz - VŠFS Jiří Mihola, Téma 6.
Experimentální fyzika I. 2
Vektorová kvantizace (VQ) (Vector Quantization)
SIGNÁLY A SOUSTAVY V MATEMATICKÉ BIOLOGII
ZÁKLADY TEORIE PRAVDĚPODOBNOSTI
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Rozpoznávání v řetězcích
Přesnost a spolehlivost v účelových sítích Bc. Jindřich Poledňák.
AKD VII.
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Kombinatorika, pravděpodobnost, statistika
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
© Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík, CSc.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Klastrování - III.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
W i ref (t+1) = W i ref (t) + h ci (t) [X(t) - W i ref (t)], i Nc h ci (t) 0, t  proces konverguje Algoritmy a struktury neuropočítačů ASN – P3 SOM algoritmus.
Základy pedagogické metodologie
Podobnost trajektorií Jiří Jakl Úvod - využití Rozpoznáváni ručně psaných textů GPS navigace Analýza pohybu pracovníku v budovách Predikce.
Vzájemná poloha dvou rovin
Vyhledávání vzorů (template matching)
© Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Teorie her pro manažery, redistribuční systémy Mikroekonomie magisterský kurz - VŠFS Jiří Mihola, Téma 5.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Aritmetický průměr - střední hodnota
Inferenční statistika - úvod
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
© Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík, CSc.
Úvod do databázových systémů
VÍCEKRITERIÁLNÍ ROZHODOVÁNÍ I.
Induktivní statistika
Indexní analýza Centrum pro virtuální a moderní metody a formy vzdělávání na Obchodní akademii T. G. Masaryka, Kostelec nad Orlicí.
Co se dá změřit v psychologii a pedagogice?
Induktivní statistika
Základy zpracování geologických dat Rozdělení pravděpodobnosti
ANALÝZA A KLASIFIKACE DAT
Klasifikace a rozpoznávání
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
Sociologický výzkum II.
Provozováno Výzkumným ústavem pedagogickým v Praze.
Statistika a výpočetní technika
Pokročilé neparametrické metody Validační techniky
Lineární regrese.
Induktivní statistika
Náhodné výběry a jejich zpracování
Princip max. věrohodnosti - odhad parametrů
Transkript prezentace:

Problematika a metody zpracování biomed. dat z pohledu jejich klasifikace Marcel Jiřina

Osnova  Rozdělování dat (do trénovací, validačních a testovacích množin)  Vlastnosti dat ve vysocedimenzionálních prostorech

Rozdělování dat

 Otázka množství a kvality dat  Obecný problém s množstvím dat a jejich kvalitou  Nereprezentativnost dat  Málo dat  Zatížené chybu (systematickou, náhodnou)  Nejasné podmínky za jakých byla data pořízena  Otázka reprodukovatelnosti měření (získání stejných dat)  Chybějící údaje  Otázka nastavení klasifikátoru a klasifikace  Potřeba reprezentativních dat pro nastavení (naučení) klasifikátoru  Obecný požadavek (např. pro k-NN, Bayesův kl., neuronový kl.) Rozdělování dat

 Pro účely nastavení (naučení) klasifikátoru je potřeba data rozdělit → další snížení počtu dat  Data se obvykle rozdělují buď na  dvě množiny: trénovací a testovací (poměr 1:1)  tři množiny: trénovací, validační a testovací (poměr 2:1:1)  úzce souvisí s křížovou korelací  Jak se bude chovat klasifikátor z dlouhodobého hlediska?  Data jsou rozdělována pomocí náhodného výběru  dobrá opora z hlediska statistiky

Rozdělování dat  Můžeme rozdělovat data do množit systematicky (deterministicky, jinak než náhodně)?  Uvažujme následující příklad  Máme rozdělit množiny do dvou skupin. Jedna bude sloužit jako trénovací a druhá jako testovací.

Rozdělování dat

 Pokud budeme rozdělovat tato data do dvou množin náhodným výběrem, potom  pravděpodobnost, že se jeden ze středových červených vzorů dostane do jedné (trénovací) množiny a druhý do druhé (testovací) množiny je jen ½.  My bychom ale ocenili, aby v každé množině byl zastoupen právě jeden z těchto bodů.  Proč?  Trénovací a testovací množiny by se od sebe příliš nelišily a tedy i natrénování klasifikátoru by bylo lepší (opíralo by se o reprezentativnější data)

Rozdělování dat  Je takovéto rozdělení správné?  Připusťme, že ano. Jak bychom mohli rozdělit množinu dat na dvě?  Chceme, aby obě množiny byly sobě co nejpodobnější.  Podobnost definujeme tak, že součet všech vzdáleností mezi všemi dvojicemi vzorů je minimální.  Takto zvolené kritérium vede na algoritmus rozdělení, který je ale NP-úplný.  Řešení: využít rozumné heuristiky.

Rozdělování dat  Náhodný výběr – vzdálenosti dvou nejbližších vzorů na počtu iterací

Rozdělování dat  Náhodný výběr – vzdálenosti dvou nejbližších vzorů na počtu iterací

Rozdělování dat  Heuristika 1  Vybereme libovolný vzor z množiny (ten bude v jedné třídě) a k němu nalezneme nebližší vzor (ten bude ve druhé třídě).  Celý postup opakujeme dokud nevyčerpáme všechny vzory.  Tento postup je celkem rychlý, ale s ubývajícími vzory se prodlužují vzdálenosti mezi vzory.

Rozdělování dat  Heuristika 1 – vzdálenosti dvou nejbližších vzorů na počtu iterací

Rozdělování dat  Heuristika 1 – vzdálenosti dvou nejbližších vzorů na počtu iterací

Rozdělování dat  Heuristika 2  Procházíme všechny vzory a ke každému hledáme nejbližšího vzor. Po nalezení dvojice, která má mezi sebou nejmenší vzdálenost ji rozdělíme do příslušných dvou množin.  Celý postup opakujeme dokud nevyčerpáme všechny vzory.  Tento postup je pomalejší než předchozí, ale dává o něco lepší výsledky. S ubývajícími vzory se také prodlužují vzdálenosti mezi vzory.

Rozdělování dat  Heuristika 2 – vzdálenosti dvou nejbližších vzorů na počtu iterací

Rozdělování dat  Heuristika 2 – vzdálenosti dvou nejbližších vzorů na počtu iterací

Rozdělování dat  Po rozdělení dat jednu množinu použijeme jako trénovací a druhou jako testovací pro nastavení klasifikátoru.  Výhoda:  Tím, že jsou množiny sobě velmi podobné, tak klasifikátor natrénovaný na jedné množině bude dobře klasifikovat na druhé množině a to výrazně lépe než při náhodném výběru.  Pochytíme vzácné události, což je zvlášť cenné např. v případě medicínských dat.

Rozdělování dat  Otázka  Je takovýto deterministický přístup k rozdělení dat z hlediska natrénování klasifikátoru správný? ... při jakékoliv klasifikaci pracujeme s daty, která máme k dispozici... ... o těchto datech předpokládáme, že jsou reprezentativní, tj. že dostatečně dobře charakterizují proces, který je generuje... ... tedy budou mezi nimi zastoupeny všechny případy, které nastanou...

Rozdělování dat ... když tedy nechybí žádný vzor, přesněji každá část prostoru je reprezentována aspoň jedním vzorem, potom navrhovaný přístup k rozdělení dat by měl být v pořádku...  Co když je v prostoru osamocený vzor, který je obklopen vzory z jiné třídy?  Řešení: např. zdvojit tento vzor nebo vygenerovat obdobný vzor (s podobnými prostorovými souřadnicemi)

Rozdělování dat  Data mohou být zašuměna.  Náhodný aditivní šum je nezávislý a tedy jeho podchycení bude také nezávislé. Jinými slovy nic tím nezkazíme.  Svádí to k tomu, že navrhovaný přístup povede k overfittingu, ale za předpokladu reprezentativnosti původního souboru dat k němu vlastně nedojde.  Má rozdělení do tří množin, tj. na trénovací, validační a testovací, smysl?  Zdá se, že validační množina zde nemá žádný výrazný význam. Dvě množiny, trénovací a testovací, by měly stačit.

Vlastnosti dat ve vysocedimenzionálních prostorech

Vlastnosti dat ve vysocedimenz. prostorech  Motivace  Kvalita klasifikace je založena na znalosti rozdělení vzorů v prostoru.  Metoda k nejbližších sousedů (k-NN), Bayesův klasifikátor,...  Metoda k nejbližších sousedů  Hustota rozdělení je odhadována na základě poměru počtu k nejbližších sousedů k objemu koule, která je opisuje.  Jednoduché a mnohdy to stačí, ale není respektováno rozdělení dat v prostoru.

Vlastnosti dat ve vysocedimenz. prostorech  Vlastnosti dat v prostoru 79 % 52 % dimenze vzdálenost dimenze

Vlastnosti dat ve vysocedimenz. prostorech  Okrajový jev

Vlastnosti dat ve vysocedimenz. prostorech  Snaha pochytit reálné rozdělení dat v prostoru → to povede ke zlepšené klasifikaci.  Předpoklad:  Každý bod (vzor) v prostoru přispívá k celkové pravděpodobnosti, že uvažovaný (klasifikovaný) vzor patří do dané třídy.  Vliv daného vzoru je tím věší, čím je blíže ke klasifikovanému vzoru... ... takže vliv vzorů klesá se vzdáleností od klasifikovaného vzoru.

Vlastnosti dat ve vysocedimenz. prostorech  Hustota pravděpodobnosti a distribuční funkce  Zkoumáme hustotu v jednotlivých „slupkách“. Z nich získáme hustotu pravděpodobnosti i distrib. funkci.

Vlastnosti dat ve vysocedimenz. prostorech  Předpoklad: Ideální případ je, kdy vzory jsou v prostoru rozděleny rovnoměrně.  V případě, že tomu tak není, tak se snažíme dané rozdělení převést na rovnoměrné.  To lze uskutečnit vhodnou změnou měřítka.  v našem případě používáme vztah r q, kde q je vhodný exponent (může to být i funkce)

Vlastnosti dat ve vysocedimenz. prostorech  Předpokládejme, že první nejbližší soused (vzor) má váhu 1, druhý váhu ½, třetí váhu 1/3, čtvrtý váhu ¼ atd.  Pravděpodobnost, že vzor x patří do třídy c, pokud i- tý vzor je ze stejné třídy je vyjádřena vztahem  Celkový vliv všech sousedních vzorů je dán vztahem

Vlastnosti dat ve vysocedimenz. prostorech  Pro jednu třídu (součet konečné harmonické řady)  Celkový vliv všech sousedních vzorů je dán vztahem  Pravděpodobnost, že vzor x patří do třídy c lze odhadnout vztahem

Vlastnosti dat ve vysocedimenz. prostorech  Srovnání klasifikačních schopností uvedené metody na reálných datech.

Vlastnosti dat ve vysocedimenz. prostorech  Vlastnosti se mění s použitou metrikou.  Nejlepší výsledky jsou s L 1 metrikou. S každou vyšší metrikou se výsledky zhoršují.  Výhodou práce se vzdálenostmi je to, že jsme přešli z n-dimenzionálního prostoru do 1-dimenzionálního prostoru.  Nejsou problémy s dimenzionalitou... ... nicméně za cenu částečné ztráty informace o reálném prostorovém uspořádání vzorů.