Přehled metod pro výběr relevantních eventů ze směsi signál-pozadí M. Jiřina, F. Hakl ÚI AV ČR
Osnova Charakteristika eventu z hlediska zpracování klasifikátorem "Neparametrické" metody k-NN Bayesovské založené na korelační dimensi Parametrické metody neuronové sítě - perceptron/backpropagation, RBF, Hopfield, Kohonen... GMDH - MIA, analytické/aproximační NNSU - klasická/moderní random trees, random forests, C4.5, C5 problém určení = učení parametrů strukturálních, číselných, genetická optimalizace Předzpracování normalizace (standardizace) ortogonalizace shluková analýza
Event, resp. data řádek = event/vzorek/případ/BOD – event/sample/case/POINT… je to bod v mnohorozměrném prostoru chceme zjistit třídu.. query point sloupec = fyzikální veličina/parametr/proměnná – variable/feature/… poslední sloupec = třída, tedy signál nebo pozadí [více tříd] pevný počet sloupců („cuts“ také)
Data pro analýzu Dvě třídy – signál a pozadí Učicí množina validační množina (přeučení, řízení výpočtu apod.) Testovací množina Reálná data Všechna data jedné třídy z „jednoho zdroje“
Neparametrické metody Teoreticky vezmu metodu, použiji data a je hotovo Typicky 1-NN ALE např.u k-NN musím udat k, u jiných metod něco jiného V podstatě to (moc) nezáleží na úloze
k-NN metoda nejbližšího souseda 1-NN 50% informace, do jaké třídy patří meznámý bod (event) je dáno nejbližším sousedem metoda k nejbližších sousedů Learning Weighted Metrics zpracování obrazu
Bayesovské metody Naive Bayes (jednou, dvakrát a třikrát naivní) Chytré B. metody
Založené na korelační dimensi Fraktál – fraktální data prostor vnoření dimense n efektivní dimense – Hausdorffova, box- counting, informační, … korelační korelační integrál = distribuční funkce všech párových vzdáleností v log-log souřadnicích je to přímka s určitým sklonem - korelační dimense ν (ný)
Jeden pevný bod Korelační integrál -> mapovací funkce rozdělení sklon v log-log, tj korelační dimense -> distribution mapping exponent q, tedy jakási lokální korelační dimense lineární regrese – sklon a aditivní konstanta C S = exp(C) dvě třídy S 1 a S 0
Odhad
Harmonické číslo, harmonická řada Pravděpodobnost, že je červená v místě X se rovná součtu prvků harmonické řady za červené body ( ) děleno součtem celé konečné harmonické řady ( )
Parametrické metody neuronové sítě - perceptron/backpropagation, RBF, Hopfield, Kohonen... GMDH - MIA, analytické/aproximační NNSU - klasická/moderní random trees, random forests, C4.5, C5 problém určení parametrů = učení strukturálních, číselných, genetická optimalizace
Neuronové sítě (klasické) perceptron/backpropagation přenosová funkce sigmoida univerzální aproximátor – klasifikátor uhodnout správnou strukturu – genetická optimalizace RBF přenosová funkce Gaussova Hopfield rozpoznávání znaků, textur apod. Kohonenovy mapy shluková analýza, redukce dimense s přídavnou částí (vrstvou) aproximátor, klasifikátor
GMDH Neuron má dva vstupy a vytváří polynom z = a 1 + a 2 x + a 3 y + a 4 x 2 + a 5 y 2 + a 6 xy a už tím se snažíme aproximovat požadovaný výstup y lineární regrese při n vstupech máme n(n-1)/2 neuronů – 1. vrstva … MIA analytické/aproximační
NNSU klasická moderní
Random trees, random forests (Hodně vzdálená) podobnost s metodou „cuts“ „řezy“ jsou závislé a výsledcích ostatních řezů, resp. v různých místech jsou různé vždy ve směru nějaké souřadnice C4.5 C5
Předzpracování normalizace (standardizace) ortogonalizace shluková analýza redukce dimensionality – feature selection … metoda odmítnutí
Připomenutí na závěr - data jsou: řádek = event/vzorek/případ/BOD – event/sample/case/POINT… je to bod v mnohorozměrném prostoru chceme zjistit třídu.. query point sloupec = fyzikální veličina/parametr/proměnná – variable/feature/… poslední sloupec = třída, tedy signál nebo pozadí [více tříd] pevný počet sloupců („cuts“ také)
A výsledek