Statistické metody v digitálním zpracování obrazu Jindřich Soukup 3. února 2012.

Slides:



Advertisements
Podobné prezentace
Analýza signálů - cvičení
Advertisements

Neparametrické odhady hustoty pravděpodobnosti
Jednovýběrové testy parametrickch hypotéz
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
Odhady parametrů základního souboru
Kalmanuv filtr pro zpracování signálů a navigaci
Lineární regresní analýza Úvod od problému
3. PRINCIP MAXIMÁLNÍ VĚROHODNOSTI
t-rozdělení, jeho použití
Národní informační středisko pro podporu kvality.
64. Odhady úplných chyb a vah funkcí BrnoLenka Bocková.
LOGISTICKÉ SYSTÉMY 4/14.
Popisná statistika - pokračování
Testování hypotéz vymezení důležitých pojmů
také Gaussovo rozdělení (normal or Gaussian distribution)
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Odhady parametrů základního souboru
Toolbox analýzy a modelování stochastických systémů b Ústav teorie informace a automatizace, AVČR b Oddělení stochastické informatiky b Ing. Petr Salaba.
Statistická analýza únavových zkoušek
Hlavní charakteristiky křivky normálního rozdělení
Lineární regrese.
Lineární regresní analýza
Statistika 2. přednáška Ing. Marcela Čapková.
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Reprezentace klasifikátoru pomocí „diskriminant“ funkce
Statistické výpočty v MATLABu
Popisná statistika III
Odhad metodou maximální věrohodnost
Princip maximální entropie
SIGNÁLY A SOUSTAVY V MATEMATICKÉ BIOLOGII
ZÁKLADY TEORIE PRAVDĚPODOBNOSTI
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Metrologie   Přednáška č. 5 Nejistoty měření.
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
Normální rozdělení a ověření normality dat
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
Statistické odhady (inference) Výběr Nepotřebujeme sníst celého vola jenom proto, abychom poznali, že to jde ztuha. Samuel Johnson (anglický básník a.
Úvod do praktické fyziky Seminář pro I.ročník F J. Englich, ZS 2003/04.
Popisná analýza v programu Statistica
Aritmetický průměr - střední hodnota
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
Inferenční statistika - úvod
IV..
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
BIOSTATISTIKA LS 2016 Garant předmětu: Ing. Martina Litschmannová, Ph.D. Přednášející: Ing. Martina Litschmannová, Ph.D. Cvičící: Ing. Martina Litschmannová,
Interpolace funkčních závislostí
Pravděpodobnost a matematická statistika I.
Statistické testování – základní pojmy
Induktivní statistika - úvod
Induktivní statistika
- váhy jednotlivých studií
Úvod do praktické fyziky
Odhady parametrů základního souboru
Popisná analýza v programu Statistica
Induktivní statistika
Základy zpracování geologických dat Rozdělení pravděpodobnosti
METODOLOGIE MAGISTERSKÉ PRÁCE
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
Pravděpodobnost a matematická statistika I.
Typy proměnných Kvalitativní/kategorická binární - ano/ne
Pokročilé neparametrické metody Validační techniky
Plánování přesnosti měření v IG Úvod – základní nástroje TCHAVP
Interpolace funkčních závislostí
Induktivní statistika
Základy statistiky.
ANALÝZA A KLASIFIKACE DAT
Náhodné výběry a jejich zpracování
Princip max. věrohodnosti - odhad parametrů
Transkript prezentace:

Statistické metody v digitálním zpracování obrazu Jindřich Soukup 3. února 2012

Osnova ● Úvod ● (Neparametrické) odhady hustoty pravděpodobnosti ● Bootstrap ● Použití logistické regresi při klasifikaci

Odhady hustoty pravděpodobnosti - motivace ● Zhodnotit pravidelnost daných struktur ● Rozdělení vzdáleností d-tých nejbližších sousedů ● Radiální distribuční funkce

Odhady hustoty pravděpodobnosti - motivace ● Naměřené hodnoty beru jako realizace náhodného jevu ● Histogramy jsou pouze odhady hustoty pravděpodobnosti tohoto jevu

Odhady hustoty pravděpodobnosti - rozdělení ● x i - naměřené hodnoty, ρ - hustota pravděpodobnosti ● Histogram, frekvenční polynom, jádrové odhady ● θ - vektor parametrů ● Bayes, MLE

Histogram - po částech konstantní odhad hustoty pravděpodobnosti ● k - počet binů, h - šířka binu ● k = ceiling( (max(x)-min(x)) / h ) ● k, resp. h jsou klíčové

Histogram - šířka binu ● Sturgesovo pravidlo (1926) - to odpovídá ● ! nepoužívat pro větší soubory dat !

Histogram - šířka binu ● Sturgesovo pravidlo (1926) - to odpovídá ● ! nepoužívat pro větší soubory dat ! ● Scott (1979) - optimální ve smyslu minimalizace MSE

Histogram - šířka binu ● Sturgesovo pravidlo (1926) - to odpovídá ● ! nepoužívat pro větší soubory dat ! ● Scott (1979) - optimální ve smyslu minimalizace MSE ● Odhady R(ρ') - ● (Scott 1979, Friedman a Diaconis 1981)

Řád konvergence, citlivost ● Odhady založené na Scottově vzorci mají řád konvergence N -2/3 (pro porovnání MLE má N -1 ).

Řád konvergence, citlivost ● Odhady založené na Scottově vzorci mají řád konvergence N -2/3 (pro porovnání MLE má N -1 ). ● Citlivost

Řád konvergence, citlivost ● Odhady založené na Scottově vzorci mají řád konvergence N -2/3 (pro porovnání MLE má N -1 ). ● Citlivost

Porovnání pravidel

Literatura

Kernel density estimation ● Jádrové odhady, Parzenovo okénko... ● Klouzavý vážený průměr

Tvar jádra, šířka jádra, citlivost ● Optimální šířka jádra (Scott - kniha) ● Optimální je tzv. Epanechnikovo jádro ● Vyšší citlivost na nesprávně zvolenou šířku

Shrnutí ● Histogram je vhodný pro prvotní náhled ● Pokud je to možné použijeme parametrické metody (vyšší řád konvergence) ● Pro velké soubory dat (řádově >10 4 ) použít raději jádrové odhady ● Šířky binů/jádra ovlivní přesnost - záleží na nich ● Problémy ve více dimenzích

Software Matlab ● Histogram (fce hist) - není implementováno žádné pravidlo pro počet binů ● Jádrové odhady (ksdensity) - pravidla pro šířku jádra - pouze to nejjednodušší ● R - všechny zmiňovaná pravidla: hist(x,breaks="volba_pravidla"), resp. plot(density(x,kernel="tvar_jádra", breaks="volby_pravidla"))

Další využití ● Klasifikace ● Statistické zpracování výsledků ● Segmentace...

Časosběrné snímky ● Pro každý pixel směrodatná odchylka okolí pixelu, průměrováno přes čas (či obráceně) ● Rozdělení hodnot - superpozice dvou gausovek

Časosběrné snímky ● Pro každý pixel směrodatná odchylka okolí pixelu, průměrováno přes čas (či obráceně) ● Rozdělení hodnot - superpozice dvou gausovek

Výsledky ● Matlab - statistický toolbox "Gaussian mixture" ● Viditelné jpg artefakty ● Úspěšnost srovnatelná s nejlepší volbou prahu

Intermezzo ● Strategie vědeckého poznání, filozofie vědy ● Jak psát články, pracovat se zdroji, komunikovat s recenzenty

Bootstrap ● Simulační statistická metoda ● Efron (1979) - první článek ● Jak recyklovat data tak, abych je mohl považovat za data nová (nezávislá na původních) ● Vhodné, pokud je získání dalších dat příliš drahé, náročné či nemožné

Princip ● Na základě dat {x i } chci získat rozdělení statistiky s

Princip ● Na základě dat {x i } chci získat rozdělení statistiky s ● Provedu náhodný výběr s vracením z {x i } a spočtu statistiku na těchto datech

Princip ● Na základě dat {x i } chci získat rozdělení statistiky s ● Provedu náhodný výběr s vracením z {x i } a spočtu statistiku na těchto datech ● Opakuji dostatečně-krát

Příklad ● Statistický výzkum mezi lidmi (známky ve škole)

Příklad ● Statistický výzkum mezi lidmi (známky ve škole) ● Zpracování pomocí metody hlavních komponent

Příklad ● Statistický výzkum mezi lidmi (známky ve škole) ● Zpracování pomocí metody hlavních komponent ● Získám výsledky - jaká je ale jejich přesnost?

Příklad ● Statistický výzkum mezi lidmi (známky ve škole) ● Zpracování pomocí metody hlavních komponent ● Získám výsledky - jaká je ale jejich přesnost? ● Vytvořím si z původního souboru dat několik bootstrapový výběrů a na nich znova provedu analýzu hlavních komponent

Příklad ● Statistický výzkum mezi lidmi (známky ve škole) ● Zpracování pomocí metody hlavních komponent ● Získám výsledky - jaká je ale jejich přesnost? ● Vytvořím si z původního souboru dat několik bootstrapový výběrů a na nich znova provedu analýzu hlavních komponent ● Z rozdělení bootstrapových odhadů spočítám směrodatnou odchylku pro vlastní čísla a vektory (a cokoli dalšího, co mě zajímá)

Kolikrát opakovat? ● Podle toho, co chci získat

Kolikrát opakovat? ● Podle toho, co chci získat ● Pokud chci odhadovat momenty rozdělení (směrodatná odchylka, šikmost,...), stačí opakování (podle některých zdrojů jen )

Kolikrát opakovat? ● Podle toho, co chci získat ● Pokud chci odhadovat momenty rozdělení (směrodatná odchylka, šikmost,...), stačí opakování (podle některých zdrojů jen ) ● Pokud chci získat distribuční funkci dané statistiky (např. abych pak z ní získal konfidenční interval), potřebuju řádově 1000 a více opakování

Kolikrát opakovat? ● Podle toho, co chci získat ● Pokud chci odhadovat momenty rozdělení (směrodatná odchylka, šikmost,...), stačí opakování (podle některých zdrojů jen ) ● Pokud chci získat distribuční funkci dané statistiky (např. abych pak z ní získal konfidenční interval), potřebuju řádově 1000 a více opakování ● Existují metody, jak snížit počet opakování

Kde nepoužívat? ● Když vím, že odhadovaná statistika je divoká ● Není vhodné pro odhady extrémů ● Pokud jsou data v původním souboru navzájem závislá, musíme modifikovat ● Můžeme používat i pokud máme odlehlé hodnoty, výsledky na to nejsou příliš citlivé

Literatura ● Efron, Tibshirani - An introduction to bootstrap ● Prášková (ROBUST 2004) - Metoda bootstrap ● Davison, Hinkley - Bootstrap Methods and Their Application

Intermezzo ● Kurz: Úvod do programování v Matlabu ● Doktorandští studenti numeriky ● ● února od 9 do 13h ● přihlásit se do 5. února

Regrese vs. klasifikace - shrnutí ● Je možné provádět klasifikaci pomocí logistické regrese - model pro učení ● Získáme pravděpodobnosti

Logistická regrese ● Není to matematicky ekvivalentní se SVM - minimalizujeme různé veličiny ● Výsledky můžou být srovnatelně dobré

Transformace souřadnic ● U regrese jsou užitečné triky, které se dají použít v klasifikaci - transformace souřadnic

Data z tunelovacího mikroskopu ● Poissonovský proces - velikost šumu závisí na intezitě signálu ● Škálujeme pomocí log

Děkuji za pozornost Diskuze