Statistické metody v digitálním zpracování obrazu Jindřich Soukup 3. února 2012
Osnova ● Úvod ● (Neparametrické) odhady hustoty pravděpodobnosti ● Bootstrap ● Použití logistické regresi při klasifikaci
Odhady hustoty pravděpodobnosti - motivace ● Zhodnotit pravidelnost daných struktur ● Rozdělení vzdáleností d-tých nejbližších sousedů ● Radiální distribuční funkce
Odhady hustoty pravděpodobnosti - motivace ● Naměřené hodnoty beru jako realizace náhodného jevu ● Histogramy jsou pouze odhady hustoty pravděpodobnosti tohoto jevu
Odhady hustoty pravděpodobnosti - rozdělení ● x i - naměřené hodnoty, ρ - hustota pravděpodobnosti ● Histogram, frekvenční polynom, jádrové odhady ● θ - vektor parametrů ● Bayes, MLE
Histogram - po částech konstantní odhad hustoty pravděpodobnosti ● k - počet binů, h - šířka binu ● k = ceiling( (max(x)-min(x)) / h ) ● k, resp. h jsou klíčové
Histogram - šířka binu ● Sturgesovo pravidlo (1926) - to odpovídá ● ! nepoužívat pro větší soubory dat !
Histogram - šířka binu ● Sturgesovo pravidlo (1926) - to odpovídá ● ! nepoužívat pro větší soubory dat ! ● Scott (1979) - optimální ve smyslu minimalizace MSE
Histogram - šířka binu ● Sturgesovo pravidlo (1926) - to odpovídá ● ! nepoužívat pro větší soubory dat ! ● Scott (1979) - optimální ve smyslu minimalizace MSE ● Odhady R(ρ') - ● (Scott 1979, Friedman a Diaconis 1981)
Řád konvergence, citlivost ● Odhady založené na Scottově vzorci mají řád konvergence N -2/3 (pro porovnání MLE má N -1 ).
Řád konvergence, citlivost ● Odhady založené na Scottově vzorci mají řád konvergence N -2/3 (pro porovnání MLE má N -1 ). ● Citlivost
Řád konvergence, citlivost ● Odhady založené na Scottově vzorci mají řád konvergence N -2/3 (pro porovnání MLE má N -1 ). ● Citlivost
Porovnání pravidel
Literatura
Kernel density estimation ● Jádrové odhady, Parzenovo okénko... ● Klouzavý vážený průměr
Tvar jádra, šířka jádra, citlivost ● Optimální šířka jádra (Scott - kniha) ● Optimální je tzv. Epanechnikovo jádro ● Vyšší citlivost na nesprávně zvolenou šířku
Shrnutí ● Histogram je vhodný pro prvotní náhled ● Pokud je to možné použijeme parametrické metody (vyšší řád konvergence) ● Pro velké soubory dat (řádově >10 4 ) použít raději jádrové odhady ● Šířky binů/jádra ovlivní přesnost - záleží na nich ● Problémy ve více dimenzích
Software Matlab ● Histogram (fce hist) - není implementováno žádné pravidlo pro počet binů ● Jádrové odhady (ksdensity) - pravidla pro šířku jádra - pouze to nejjednodušší ● R - všechny zmiňovaná pravidla: hist(x,breaks="volba_pravidla"), resp. plot(density(x,kernel="tvar_jádra", breaks="volby_pravidla"))
Další využití ● Klasifikace ● Statistické zpracování výsledků ● Segmentace...
Časosběrné snímky ● Pro každý pixel směrodatná odchylka okolí pixelu, průměrováno přes čas (či obráceně) ● Rozdělení hodnot - superpozice dvou gausovek
Časosběrné snímky ● Pro každý pixel směrodatná odchylka okolí pixelu, průměrováno přes čas (či obráceně) ● Rozdělení hodnot - superpozice dvou gausovek
Výsledky ● Matlab - statistický toolbox "Gaussian mixture" ● Viditelné jpg artefakty ● Úspěšnost srovnatelná s nejlepší volbou prahu
Intermezzo ● Strategie vědeckého poznání, filozofie vědy ● Jak psát články, pracovat se zdroji, komunikovat s recenzenty
Bootstrap ● Simulační statistická metoda ● Efron (1979) - první článek ● Jak recyklovat data tak, abych je mohl považovat za data nová (nezávislá na původních) ● Vhodné, pokud je získání dalších dat příliš drahé, náročné či nemožné
Princip ● Na základě dat {x i } chci získat rozdělení statistiky s
Princip ● Na základě dat {x i } chci získat rozdělení statistiky s ● Provedu náhodný výběr s vracením z {x i } a spočtu statistiku na těchto datech
Princip ● Na základě dat {x i } chci získat rozdělení statistiky s ● Provedu náhodný výběr s vracením z {x i } a spočtu statistiku na těchto datech ● Opakuji dostatečně-krát
Příklad ● Statistický výzkum mezi lidmi (známky ve škole)
Příklad ● Statistický výzkum mezi lidmi (známky ve škole) ● Zpracování pomocí metody hlavních komponent
Příklad ● Statistický výzkum mezi lidmi (známky ve škole) ● Zpracování pomocí metody hlavních komponent ● Získám výsledky - jaká je ale jejich přesnost?
Příklad ● Statistický výzkum mezi lidmi (známky ve škole) ● Zpracování pomocí metody hlavních komponent ● Získám výsledky - jaká je ale jejich přesnost? ● Vytvořím si z původního souboru dat několik bootstrapový výběrů a na nich znova provedu analýzu hlavních komponent
Příklad ● Statistický výzkum mezi lidmi (známky ve škole) ● Zpracování pomocí metody hlavních komponent ● Získám výsledky - jaká je ale jejich přesnost? ● Vytvořím si z původního souboru dat několik bootstrapový výběrů a na nich znova provedu analýzu hlavních komponent ● Z rozdělení bootstrapových odhadů spočítám směrodatnou odchylku pro vlastní čísla a vektory (a cokoli dalšího, co mě zajímá)
Kolikrát opakovat? ● Podle toho, co chci získat
Kolikrát opakovat? ● Podle toho, co chci získat ● Pokud chci odhadovat momenty rozdělení (směrodatná odchylka, šikmost,...), stačí opakování (podle některých zdrojů jen )
Kolikrát opakovat? ● Podle toho, co chci získat ● Pokud chci odhadovat momenty rozdělení (směrodatná odchylka, šikmost,...), stačí opakování (podle některých zdrojů jen ) ● Pokud chci získat distribuční funkci dané statistiky (např. abych pak z ní získal konfidenční interval), potřebuju řádově 1000 a více opakování
Kolikrát opakovat? ● Podle toho, co chci získat ● Pokud chci odhadovat momenty rozdělení (směrodatná odchylka, šikmost,...), stačí opakování (podle některých zdrojů jen ) ● Pokud chci získat distribuční funkci dané statistiky (např. abych pak z ní získal konfidenční interval), potřebuju řádově 1000 a více opakování ● Existují metody, jak snížit počet opakování
Kde nepoužívat? ● Když vím, že odhadovaná statistika je divoká ● Není vhodné pro odhady extrémů ● Pokud jsou data v původním souboru navzájem závislá, musíme modifikovat ● Můžeme používat i pokud máme odlehlé hodnoty, výsledky na to nejsou příliš citlivé
Literatura ● Efron, Tibshirani - An introduction to bootstrap ● Prášková (ROBUST 2004) - Metoda bootstrap ● Davison, Hinkley - Bootstrap Methods and Their Application
Intermezzo ● Kurz: Úvod do programování v Matlabu ● Doktorandští studenti numeriky ● ● února od 9 do 13h ● přihlásit se do 5. února
Regrese vs. klasifikace - shrnutí ● Je možné provádět klasifikaci pomocí logistické regrese - model pro učení ● Získáme pravděpodobnosti
Logistická regrese ● Není to matematicky ekvivalentní se SVM - minimalizujeme různé veličiny ● Výsledky můžou být srovnatelně dobré
Transformace souřadnic ● U regrese jsou užitečné triky, které se dají použít v klasifikaci - transformace souřadnic
Data z tunelovacího mikroskopu ● Poissonovský proces - velikost šumu závisí na intezitě signálu ● Škálujeme pomocí log
Děkuji za pozornost Diskuze