Problematika a metody zpracování biomed. dat z pohledu jejich klasifikace Marcel Jiřina
Osnova Rozdělování dat (do trénovací, validačních a testovacích množin) Vlastnosti dat ve vysocedimenzionálních prostorech
Rozdělování dat
Otázka množství a kvality dat Obecný problém s množstvím dat a jejich kvalitou Nereprezentativnost dat Málo dat Zatížené chybu (systematickou, náhodnou) Nejasné podmínky za jakých byla data pořízena Otázka reprodukovatelnosti měření (získání stejných dat) Chybějící údaje Otázka nastavení klasifikátoru a klasifikace Potřeba reprezentativních dat pro nastavení (naučení) klasifikátoru Obecný požadavek (např. pro k-NN, Bayesův kl., neuronový kl.) Rozdělování dat
Pro účely nastavení (naučení) klasifikátoru je potřeba data rozdělit → další snížení počtu dat Data se obvykle rozdělují buď na dvě množiny: trénovací a testovací (poměr 1:1) tři množiny: trénovací, validační a testovací (poměr 2:1:1) úzce souvisí s křížovou korelací Jak se bude chovat klasifikátor z dlouhodobého hlediska? Data jsou rozdělována pomocí náhodného výběru dobrá opora z hlediska statistiky
Rozdělování dat Můžeme rozdělovat data do množit systematicky (deterministicky, jinak než náhodně)? Uvažujme následující příklad Máme rozdělit množiny do dvou skupin. Jedna bude sloužit jako trénovací a druhá jako testovací.
Rozdělování dat
Pokud budeme rozdělovat tato data do dvou množin náhodným výběrem, potom pravděpodobnost, že se jeden ze středových červených vzorů dostane do jedné (trénovací) množiny a druhý do druhé (testovací) množiny je jen ½. My bychom ale ocenili, aby v každé množině byl zastoupen právě jeden z těchto bodů. Proč? Trénovací a testovací množiny by se od sebe příliš nelišily a tedy i natrénování klasifikátoru by bylo lepší (opíralo by se o reprezentativnější data)
Rozdělování dat Je takovéto rozdělení správné? Připusťme, že ano. Jak bychom mohli rozdělit množinu dat na dvě? Chceme, aby obě množiny byly sobě co nejpodobnější. Podobnost definujeme tak, že součet všech vzdáleností mezi všemi dvojicemi vzorů je minimální. Takto zvolené kritérium vede na algoritmus rozdělení, který je ale NP-úplný. Řešení: využít rozumné heuristiky.
Rozdělování dat Náhodný výběr – vzdálenosti dvou nejbližších vzorů na počtu iterací
Rozdělování dat Náhodný výběr – vzdálenosti dvou nejbližších vzorů na počtu iterací
Rozdělování dat Heuristika 1 Vybereme libovolný vzor z množiny (ten bude v jedné třídě) a k němu nalezneme nebližší vzor (ten bude ve druhé třídě). Celý postup opakujeme dokud nevyčerpáme všechny vzory. Tento postup je celkem rychlý, ale s ubývajícími vzory se prodlužují vzdálenosti mezi vzory.
Rozdělování dat Heuristika 1 – vzdálenosti dvou nejbližších vzorů na počtu iterací
Rozdělování dat Heuristika 1 – vzdálenosti dvou nejbližších vzorů na počtu iterací
Rozdělování dat Heuristika 2 Procházíme všechny vzory a ke každému hledáme nejbližšího vzor. Po nalezení dvojice, která má mezi sebou nejmenší vzdálenost ji rozdělíme do příslušných dvou množin. Celý postup opakujeme dokud nevyčerpáme všechny vzory. Tento postup je pomalejší než předchozí, ale dává o něco lepší výsledky. S ubývajícími vzory se také prodlužují vzdálenosti mezi vzory.
Rozdělování dat Heuristika 2 – vzdálenosti dvou nejbližších vzorů na počtu iterací
Rozdělování dat Heuristika 2 – vzdálenosti dvou nejbližších vzorů na počtu iterací
Rozdělování dat Po rozdělení dat jednu množinu použijeme jako trénovací a druhou jako testovací pro nastavení klasifikátoru. Výhoda: Tím, že jsou množiny sobě velmi podobné, tak klasifikátor natrénovaný na jedné množině bude dobře klasifikovat na druhé množině a to výrazně lépe než při náhodném výběru. Pochytíme vzácné události, což je zvlášť cenné např. v případě medicínských dat.
Rozdělování dat Otázka Je takovýto deterministický přístup k rozdělení dat z hlediska natrénování klasifikátoru správný? ... při jakékoliv klasifikaci pracujeme s daty, která máme k dispozici... ... o těchto datech předpokládáme, že jsou reprezentativní, tj. že dostatečně dobře charakterizují proces, který je generuje... ... tedy budou mezi nimi zastoupeny všechny případy, které nastanou...
Rozdělování dat ... když tedy nechybí žádný vzor, přesněji každá část prostoru je reprezentována aspoň jedním vzorem, potom navrhovaný přístup k rozdělení dat by měl být v pořádku... Co když je v prostoru osamocený vzor, který je obklopen vzory z jiné třídy? Řešení: např. zdvojit tento vzor nebo vygenerovat obdobný vzor (s podobnými prostorovými souřadnicemi)
Rozdělování dat Data mohou být zašuměna. Náhodný aditivní šum je nezávislý a tedy jeho podchycení bude také nezávislé. Jinými slovy nic tím nezkazíme. Svádí to k tomu, že navrhovaný přístup povede k overfittingu, ale za předpokladu reprezentativnosti původního souboru dat k němu vlastně nedojde. Má rozdělení do tří množin, tj. na trénovací, validační a testovací, smysl? Zdá se, že validační množina zde nemá žádný výrazný význam. Dvě množiny, trénovací a testovací, by měly stačit.
Vlastnosti dat ve vysocedimenzionálních prostorech
Vlastnosti dat ve vysocedimenz. prostorech Motivace Kvalita klasifikace je založena na znalosti rozdělení vzorů v prostoru. Metoda k nejbližších sousedů (k-NN), Bayesův klasifikátor,... Metoda k nejbližších sousedů Hustota rozdělení je odhadována na základě poměru počtu k nejbližších sousedů k objemu koule, která je opisuje. Jednoduché a mnohdy to stačí, ale není respektováno rozdělení dat v prostoru.
Vlastnosti dat ve vysocedimenz. prostorech Vlastnosti dat v prostoru 79 % 52 % dimenze vzdálenost dimenze
Vlastnosti dat ve vysocedimenz. prostorech Okrajový jev
Vlastnosti dat ve vysocedimenz. prostorech Snaha pochytit reálné rozdělení dat v prostoru → to povede ke zlepšené klasifikaci. Předpoklad: Každý bod (vzor) v prostoru přispívá k celkové pravděpodobnosti, že uvažovaný (klasifikovaný) vzor patří do dané třídy. Vliv daného vzoru je tím věší, čím je blíže ke klasifikovanému vzoru... ... takže vliv vzorů klesá se vzdáleností od klasifikovaného vzoru.
Vlastnosti dat ve vysocedimenz. prostorech Hustota pravděpodobnosti a distribuční funkce Zkoumáme hustotu v jednotlivých „slupkách“. Z nich získáme hustotu pravděpodobnosti i distrib. funkci.
Vlastnosti dat ve vysocedimenz. prostorech Předpoklad: Ideální případ je, kdy vzory jsou v prostoru rozděleny rovnoměrně. V případě, že tomu tak není, tak se snažíme dané rozdělení převést na rovnoměrné. To lze uskutečnit vhodnou změnou měřítka. v našem případě používáme vztah r q, kde q je vhodný exponent (může to být i funkce)
Vlastnosti dat ve vysocedimenz. prostorech Předpokládejme, že první nejbližší soused (vzor) má váhu 1, druhý váhu ½, třetí váhu 1/3, čtvrtý váhu ¼ atd. Pravděpodobnost, že vzor x patří do třídy c, pokud i- tý vzor je ze stejné třídy je vyjádřena vztahem Celkový vliv všech sousedních vzorů je dán vztahem
Vlastnosti dat ve vysocedimenz. prostorech Pro jednu třídu (součet konečné harmonické řady) Celkový vliv všech sousedních vzorů je dán vztahem Pravděpodobnost, že vzor x patří do třídy c lze odhadnout vztahem
Vlastnosti dat ve vysocedimenz. prostorech Srovnání klasifikačních schopností uvedené metody na reálných datech.
Vlastnosti dat ve vysocedimenz. prostorech Vlastnosti se mění s použitou metrikou. Nejlepší výsledky jsou s L 1 metrikou. S každou vyšší metrikou se výsledky zhoršují. Výhodou práce se vzdálenostmi je to, že jsme přešli z n-dimenzionálního prostoru do 1-dimenzionálního prostoru. Nejsou problémy s dimenzionalitou... ... nicméně za cenu částečné ztráty informace o reálném prostorovém uspořádání vzorů.