Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Problematika a metody zpracování biomed. dat z pohledu jejich klasifikace Marcel Jiřina.

Podobné prezentace


Prezentace na téma: "Problematika a metody zpracování biomed. dat z pohledu jejich klasifikace Marcel Jiřina."— Transkript prezentace:

1 Problematika a metody zpracování biomed. dat z pohledu jejich klasifikace Marcel Jiřina

2 Osnova  Rozdělování dat (do trénovací, validačních a testovacích množin)  Vlastnosti dat ve vysocedimenzionálních prostorech

3 Rozdělování dat

4  Otázka množství a kvality dat  Obecný problém s množstvím dat a jejich kvalitou  Nereprezentativnost dat  Málo dat  Zatížené chybu (systematickou, náhodnou)  Nejasné podmínky za jakých byla data pořízena  Otázka reprodukovatelnosti měření (získání stejných dat)  Chybějící údaje  Otázka nastavení klasifikátoru a klasifikace  Potřeba reprezentativních dat pro nastavení (naučení) klasifikátoru  Obecný požadavek (např. pro k-NN, Bayesův kl., neuronový kl.) Rozdělování dat

5  Pro účely nastavení (naučení) klasifikátoru je potřeba data rozdělit → další snížení počtu dat  Data se obvykle rozdělují buď na  dvě množiny: trénovací a testovací (poměr 1:1)  tři množiny: trénovací, validační a testovací (poměr 2:1:1)  úzce souvisí s křížovou korelací  Jak se bude chovat klasifikátor z dlouhodobého hlediska?  Data jsou rozdělována pomocí náhodného výběru  dobrá opora z hlediska statistiky

6 Rozdělování dat  Můžeme rozdělovat data do množit systematicky (deterministicky, jinak než náhodně)?  Uvažujme následující příklad  Máme rozdělit množiny do dvou skupin. Jedna bude sloužit jako trénovací a druhá jako testovací.

7 Rozdělování dat

8  Pokud budeme rozdělovat tato data do dvou množin náhodným výběrem, potom  pravděpodobnost, že se jeden ze středových červených vzorů dostane do jedné (trénovací) množiny a druhý do druhé (testovací) množiny je jen ½.  My bychom ale ocenili, aby v každé množině byl zastoupen právě jeden z těchto bodů.  Proč?  Trénovací a testovací množiny by se od sebe příliš nelišily a tedy i natrénování klasifikátoru by bylo lepší (opíralo by se o reprezentativnější data)

9 Rozdělování dat  Je takovéto rozdělení správné?  Připusťme, že ano. Jak bychom mohli rozdělit množinu dat na dvě?  Chceme, aby obě množiny byly sobě co nejpodobnější.  Podobnost definujeme tak, že součet všech vzdáleností mezi všemi dvojicemi vzorů je minimální.  Takto zvolené kritérium vede na algoritmus rozdělení, který je ale NP-úplný.  Řešení: využít rozumné heuristiky.

10 Rozdělování dat  Náhodný výběr – vzdálenosti dvou nejbližších vzorů na počtu iterací

11 Rozdělování dat  Náhodný výběr – vzdálenosti dvou nejbližších vzorů na počtu iterací

12 Rozdělování dat  Heuristika 1  Vybereme libovolný vzor z množiny (ten bude v jedné třídě) a k němu nalezneme nebližší vzor (ten bude ve druhé třídě).  Celý postup opakujeme dokud nevyčerpáme všechny vzory.  Tento postup je celkem rychlý, ale s ubývajícími vzory se prodlužují vzdálenosti mezi vzory.

13 Rozdělování dat  Heuristika 1 – vzdálenosti dvou nejbližších vzorů na počtu iterací

14 Rozdělování dat  Heuristika 1 – vzdálenosti dvou nejbližších vzorů na počtu iterací

15 Rozdělování dat  Heuristika 2  Procházíme všechny vzory a ke každému hledáme nejbližšího vzor. Po nalezení dvojice, která má mezi sebou nejmenší vzdálenost ji rozdělíme do příslušných dvou množin.  Celý postup opakujeme dokud nevyčerpáme všechny vzory.  Tento postup je pomalejší než předchozí, ale dává o něco lepší výsledky. S ubývajícími vzory se také prodlužují vzdálenosti mezi vzory.

16 Rozdělování dat  Heuristika 2 – vzdálenosti dvou nejbližších vzorů na počtu iterací

17 Rozdělování dat  Heuristika 2 – vzdálenosti dvou nejbližších vzorů na počtu iterací

18 Rozdělování dat  Po rozdělení dat jednu množinu použijeme jako trénovací a druhou jako testovací pro nastavení klasifikátoru.  Výhoda:  Tím, že jsou množiny sobě velmi podobné, tak klasifikátor natrénovaný na jedné množině bude dobře klasifikovat na druhé množině a to výrazně lépe než při náhodném výběru.  Pochytíme vzácné události, což je zvlášť cenné např. v případě medicínských dat.

19 Rozdělování dat  Otázka  Je takovýto deterministický přístup k rozdělení dat z hlediska natrénování klasifikátoru správný? ... při jakékoliv klasifikaci pracujeme s daty, která máme k dispozici... ... o těchto datech předpokládáme, že jsou reprezentativní, tj. že dostatečně dobře charakterizují proces, který je generuje... ... tedy budou mezi nimi zastoupeny všechny případy, které nastanou...

20 Rozdělování dat ... když tedy nechybí žádný vzor, přesněji každá část prostoru je reprezentována aspoň jedním vzorem, potom navrhovaný přístup k rozdělení dat by měl být v pořádku...  Co když je v prostoru osamocený vzor, který je obklopen vzory z jiné třídy?  Řešení: např. zdvojit tento vzor nebo vygenerovat obdobný vzor (s podobnými prostorovými souřadnicemi)

21 Rozdělování dat  Data mohou být zašuměna.  Náhodný aditivní šum je nezávislý a tedy jeho podchycení bude také nezávislé. Jinými slovy nic tím nezkazíme.  Svádí to k tomu, že navrhovaný přístup povede k overfittingu, ale za předpokladu reprezentativnosti původního souboru dat k němu vlastně nedojde.  Má rozdělení do tří množin, tj. na trénovací, validační a testovací, smysl?  Zdá se, že validační množina zde nemá žádný výrazný význam. Dvě množiny, trénovací a testovací, by měly stačit.

22 Vlastnosti dat ve vysocedimenzionálních prostorech

23 Vlastnosti dat ve vysocedimenz. prostorech  Motivace  Kvalita klasifikace je založena na znalosti rozdělení vzorů v prostoru.  Metoda k nejbližších sousedů (k-NN), Bayesův klasifikátor,...  Metoda k nejbližších sousedů  Hustota rozdělení je odhadována na základě poměru počtu k nejbližších sousedů k objemu koule, která je opisuje.  Jednoduché a mnohdy to stačí, ale není respektováno rozdělení dat v prostoru.

24 Vlastnosti dat ve vysocedimenz. prostorech  Vlastnosti dat v prostoru 79 % 52 % dimenze vzdálenost dimenze

25 Vlastnosti dat ve vysocedimenz. prostorech  Okrajový jev

26 Vlastnosti dat ve vysocedimenz. prostorech  Snaha pochytit reálné rozdělení dat v prostoru → to povede ke zlepšené klasifikaci.  Předpoklad:  Každý bod (vzor) v prostoru přispívá k celkové pravděpodobnosti, že uvažovaný (klasifikovaný) vzor patří do dané třídy.  Vliv daného vzoru je tím věší, čím je blíže ke klasifikovanému vzoru... ... takže vliv vzorů klesá se vzdáleností od klasifikovaného vzoru.

27 Vlastnosti dat ve vysocedimenz. prostorech  Hustota pravděpodobnosti a distribuční funkce  Zkoumáme hustotu v jednotlivých „slupkách“. Z nich získáme hustotu pravděpodobnosti i distrib. funkci.

28 Vlastnosti dat ve vysocedimenz. prostorech  Předpoklad: Ideální případ je, kdy vzory jsou v prostoru rozděleny rovnoměrně.  V případě, že tomu tak není, tak se snažíme dané rozdělení převést na rovnoměrné.  To lze uskutečnit vhodnou změnou měřítka.  v našem případě používáme vztah r q, kde q je vhodný exponent (může to být i funkce)

29 Vlastnosti dat ve vysocedimenz. prostorech  Předpokládejme, že první nejbližší soused (vzor) má váhu 1, druhý váhu ½, třetí váhu 1/3, čtvrtý váhu ¼ atd.  Pravděpodobnost, že vzor x patří do třídy c, pokud i- tý vzor je ze stejné třídy je vyjádřena vztahem  Celkový vliv všech sousedních vzorů je dán vztahem

30 Vlastnosti dat ve vysocedimenz. prostorech  Pro jednu třídu (součet konečné harmonické řady)  Celkový vliv všech sousedních vzorů je dán vztahem  Pravděpodobnost, že vzor x patří do třídy c lze odhadnout vztahem

31 Vlastnosti dat ve vysocedimenz. prostorech  Srovnání klasifikačních schopností uvedené metody na reálných datech.

32 Vlastnosti dat ve vysocedimenz. prostorech  Vlastnosti se mění s použitou metrikou.  Nejlepší výsledky jsou s L 1 metrikou. S každou vyšší metrikou se výsledky zhoršují.  Výhodou práce se vzdálenostmi je to, že jsme přešli z n-dimenzionálního prostoru do 1-dimenzionálního prostoru.  Nejsou problémy s dimenzionalitou... ... nicméně za cenu částečné ztráty informace o reálném prostorovém uspořádání vzorů.


Stáhnout ppt "Problematika a metody zpracování biomed. dat z pohledu jejich klasifikace Marcel Jiřina."

Podobné prezentace


Reklamy Google