Neparametrické odhady hustoty pravděpodobnosti

Slides:



Advertisements
Podobné prezentace
PLAYBOY Kalendar 2007.
Advertisements

Trojúhelník výkonů Ing. Jaroslav Bernkopf Trojúhelník výkonů
Přijímací zkoušky na SŠ MATEMATIKA Připravil PhDr. Ivo Horáček, PhD.
TEORIE ROZHODOVÁNÍ A TEORIE HER
Vlastní skript může být umístěn: v hlavičce stránky v těle stránky
*Zdroj: Průzkum spotřebitelů Komise EU, ukazatel GfK. Ekonomická očekávání v Evropě Březen.
Utvořte negaci výroku, a to bez použití záporu.
Kvantitativní metody výzkumu v praxi
Spektra zatížení Milan Růžička 1 Dynamická pevnost a životnost
PROCVIČOVÁNÍ spustíte klávesou F5
CIT Sekvenční obvody Díl VI.
MINISTRANTI NAPAJEDLA
Diskrétní matematika Opakování - příklady.
Problematika a metody zpracování biomed. dat z pohledu jejich klasifikace Marcel Jiřina.
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
PROGRAM PRO VÝUKU T ČLÁNKU
AutorMgr. Lenka Závrská Anotace Očekávaný přínos Tematická oblastOperace s reálnými čísly Téma PředmětMatematika RočníkPrvní Obor vzděláváníUčební obory.
Dynamické rozvozní úlohy
Násobíme . 4 = = . 4 = = . 4 = = . 2 = 9 .
Elektrický obvod a jeho části
Konstrukce, princip funkce a základní charakteristiky hydromotorů
Počítačová grafika III – Monte Carlo integrování
Správné pády I In the following sentences, put the nouns between slash marks into the correct case. Vzor: Přes naše rozdíly zůstanu /tvůj přítel/. Přes.
MADSEN AccuScreen novorozenecký sluchový screener.
Vizualizace projektu větrného parku Stříbro porovnání variant 13 VTE a menšího parku.
Vzdělávací materiál / DUMVY_32_INOVACE_02B14 Příkazový řádek: obsah souborů PŘÍKLADY AutorIng. Petr Haman Období vytvořeníLeden 2013 Ročník / věková kategorie3.
Dělení se zbytkem 3 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Lineární rovnice Běloun 91/1 a
ZÁKLADNÍ ŠKOLA PODBOŘANY, HUSOVA 276, OKRES LOUNY
MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA reg. č.: CZ.1.07/1.4.00/ Základní škola, Šlapanice, okres Brno-venkov, příspěvková organizace Masarykovo nám.
ARITMETICKÁ POSLOUPNOST I
Regresní analýza a korelační analýza
Základní číselné množiny
Anotace Prezentace, která se zabývá prvočísly a čísly složenými AutorPavel Pavlas JazykČeština Očekávaný výstup Žáci rozliší prvočíslo a číslo složené.
Získávání informací Získání informací o reálném systému
Gravitační vlny v přesných řešeních Einsteinových rovnic RNDr
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
Dělení se zbytkem 5 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Název materiálu: OPAKOVÁNÍ 1.POLOLETÍ - OTÁZKY
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
KASKÁDOVÉ STYLY 4.
Pravděpodobnost a statistika opakování základních pojmů
Jazyk vývojových diagramů

Posloupnosti, řady Posloupnost je každá funkce daná nějakým předpisem, jejímž definičním oborem je množina všech přirozených čísel n=1,2,3,… Zapisujeme.
Násobení zlomků – teorie a cvičení VY_32_INOVACE_19
25. října 2004Statistika (D360P03Z) 4. předn.1 Statistika (D360P03Z) akademický rok 2004/2005 doc. RNDr. Karel Zvára, CSc. KPMS MFF UK
Název materiálu: OPAKOVÁNÍ 1.POLOLETÍ - OTÁZKY
Zásady pozorování a vyjednávání Soustředění – zaznamenat (podívat se) – udržet (zobrazit) v povědomí – představit si – (opakovat, pokud se nezdaří /doma/)
Název materiálu: OPAKOVÁNÍ 1.POLOLETÍ - OTÁZKY
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Nový trend ve slunolamech Radek Pelz, ALARIS Czech Republic s.r.o.
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
EDITOR BY: SPRESS 15. ledna ledna ledna 2015.
Makroekonomie I ( Cvičení 13 – Mezinárodní obchod a obchodní politika)
Soutěž pro dvě družstva
MS PowerPoint Příloha - šablony.
Fyzika 2 – ZS_3 OPTIKA.
Téma: ABSOLUTNÍ HODNOTA CELÝCH ČÍSEL 2
VII. Neutronová interferometrie II. cvičení KOTLÁŘSKÁ 7. DUBNA 2010 F4110 Kvantová fyzika atomárních soustav letní semestr
Název materiálu: OPAKOVÁNÍ 1.POLOLETÍ - OTÁZKY
1 Celostátní konference ředitelů gymnázií ČR AŘG ČR P ř e r o v Mezikrajová komparace ekonomiky gymnázií.
Jazyk vývojových diagramů
Elektronická zařízení
Ovoce a zelenina Svět kolem nás
1 6 Predikce potřeby Servisní logistika prof. Ing. Václav Legát, DrSc. Technická fakulta ČZU v Praze Katedra jakosti a spolehlivosti strojů
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
Autor: Ondřej Šimeček Verze: 1.1.3
Statistické metody v digitálním zpracování obrazu Jindřich Soukup 3. února 2012.
Transkript prezentace:

Neparametrické odhady hustoty pravděpodobnosti Václav Hlaváč Elektrotechnická fakulta ČVUT Katedra kybernetiky Centrum strojového vnímání 121 35 Praha 2, Karlovo nám. 13 hlavac@fel.cvut.cz

Statistické rozpoznávaní p(x|i)   x From [Jain00] Class-conditional Densities output information Known Bayes Decision Theory Unknown Supervised Unsupervised Parametric Nonparametric Plug-in Rules Density Estimation Optimal Decision Boundary Construction Parametric Nonparametric Mixture Resolving Clustering Analysis input information difficulty

Unimodální a vícemodální hustoty Parametrické metody umějí odhadovat unimodální hustoty pravděpodobnosti. Mnohé praktické úlohy odpovídají vícemodálním hustotám. Jen někdy (zřídka) lze vícemodální rozdělení modelovat jako směs unimodálních rozdělení. Neparametrické metody odhadu lze použít pro vícemodální hustoty, aniž by bylo nutné předpokládat tvar jejich rozdělení. něco za něco: potřebují více trénovacích dat

Neparametrické metody Dva typy úloh Pozorování x, pravděpodobnost třídy (skrytého stavu) k z množiny tříd K. Zmíníme postupy pro odhad dvou pravděpodobností: Hustoty pravděpodobnosti p(x|k) závislé na třídě, (metoda histogramu, Parzenova okna). Maximální aposteriorní pravděpodobnosti P(k|x), (metody nejbližšího souseda, obcházejí odhad hustoty a odhadují přímo rozhodovací pravidlo).

Myšlenka = histogram Rozděl prostor jevů na přihrádky o šířce h Aproximuj rozdělení pomocí

Prokletí dimenzionality: NEVÝHODY HISTOGRAMU Nespojitosti v odhadu hustoty závisí na kvantizaci přihrádek, nikoliv na hustotě. Prokletí dimenzionality: Jemný popis vyžaduje mnoho přihrádek. Počet přihrádek roste exponenciálně s počtem dimenzí. Dat není dost, a tak je většina přihrádek prázdných. Tyto nevýhody činí metodu histogramu prakticky nepoužitelnou až na případ rychlé vizualizace dat v dimenzi 1 nebo 2.

Myšlenka neparametrických odhadů (1) Trénovací množina x = {x1, ..., xn}

Myšlenka neparametrických odhadů (2) Pravděpodobnost, že x padne do přihrádky o rozměru R Pravděpodobnost P je vyhlazenou verzí p(x). Obráceně, hodnotu p(x) lze odhadnout z pravděpodobnosti P.

Myšlenka neparametrických odhadů (3) Předpokládejme, že jsme vytáhli nezávisle m vzorků ze stejného rozdělení p(x). Pravděpodobnost, že m vzorků je z n je dána binomickým rozdělením

Myšlenka neparametrických odhadů (4) Očekávaná hodnota m rozdělení je Binomické rozdělení je velmi špičaté kolem své očekávané hodnoty, a proto lze očekávat, že m/n bude dobrým odhadem P, a tudíž i hustoty p.

Myšlenka neparametrických odhadů (5)

Myšlenka neparametrických odhadů (6) m – počet xi, které spadly do R n – počet přihrádek Kombinací předchozích dvou vztahů získáme odhad pravděpodnosti

ILUSTRACE Skutečná hodnota hustoty rozdělení, z něhož se v bodě x vybíralo je 0,7. Normalizováno na stejnou hodnotu.

Praktická potíž Když zvolíme pevnou velikost přihrádky, potom m/n konverguje k vyhlazené hodnotě p(x). Když zmenšujeme přihrádku do nekonečna, nepadne nám do ní žádný vzorek a náš odhad bude p(x)  0. Musíme být připraveni, že prakticky náš odhad bude vždy vyhlazen.

Jak obejít problémy ? Potížím se teoreticky vyhneme, když budeme mít nekonečně vzorků rozdělení. Můžeme uvažovat posloupnost přihrádek různé velikosti kolem x. První přihdrádka obsahuje 1 vzorek m=1, druhá m=2, atd. Odhad hodnoty rozdělení

Tři podmínky

Dva způsoby vytvoření posloupností přihrádek Objem přihrádky je funkcí n, např. Metoda Parzenova okna. Počet vzorků mn je určen jako funkce n, např. Zde přihrádka roste, až obsahuje mn sousedů vzorku x. Metoda mn-nejbližších sousedů.

ILUSTRACE růstu přihrádek

Metoda Parzenových oken Také nazývaná jádrová metody odhadu hustoty. Parzen E. (1962). On estimation of a probability density function and mode, Ann. Math. Stat. 33, pp. 1065-1076. Duda R.O., Hart P.E., Stork D.G. (2001). Pattern Classification. John Willey & Sons, New York.

Neformálně Parzenova okna Myšlenka: každý bod z trénovací množiny přispívá jednou Parzenovou jádrovou funkcí (nebo oknem) k vytvoření hustoty pravděpodobnosti.

Parzenovo okno Přihrádka je d-rozměrná nadkrychle o straně h se středem ve vzorku x přispívajícím odhadu. Počet vzorků v přihrádce je dán jádrovou funkcí které se říká Parzenovo okno nebo naivní estimátor.

Odhad hustoty Počet vzorků v nadkrychli je Odhad hustoty je

Odhad p(x) jako suma -funkcí (1) Odhad je interpolací založené na oknové (jádrové) funkci (). Mimo přihrádku má -funkce nulovou hodnotu. Aby byl odhad pravděpodobností, musí platit Zkoumejme vliv šířky okna hn na pn(x). Uvažujme provizorně, že odhad je superpozicí Diracových pulsů 

Odhad p(x) jako suma -funkcí (2) Odhad p(x) je sumou -funkcí. Rozměr přihrádky h ovlivňuje jak amplitudu tak i šířku (x), protože objem zůstává konstantní.

Ilustrace vlivu velikosti okna Při malém h je odhad p(x) je superpozicí velmi pozvolně se měnících funkcí. Je „rozmazaný“. Při velkém h je odhad p(x) superpozicí úzkých špiček v místě vzorků.

Volba jádrové funkce (okna) Vyhlazování je nutné. Superpozice Diracových pulsů by vedla k nespojitému odhadu p(x). Doporučená volba: Gaussián

Odhad hustoty metodou nejbližšího souseda Najdi n nejbližších sousedů k hodnotě x. Vn je objem (např. koule) obsahujici těchto n vzorků. Odhadni hodnotu hustoty jako x2 x1

Nejbližší sousedé Základní myšlenka je jednoduchá : Učení Zapamatují se všechny dvojice {vstup, rozhodnutí o třídě}. Odhadování, rozpoznávání Odpověď se vybere podle n nejbližších tréninkových příkladů.

Nejbližší sousedé, ilustrace

Nejbližší sousedé, vlastnosti Výhody Po uchování trénovací množiny není potřebné další učení. Neparametrická metoda. Nevýhody Potřebuje mnoho paměti pro uložení trénovací množiny. Pro mohutnější trénovací množiny je rozpoznávání pomalé.