Estimation of Distribution Algorithms Část II Petr Pošík Prezentace pro předmět Kognitivní procesy 6. dubna 2006.

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

Dynamické systémy.
OBECNÉ OPTIMALIZAČNÍ MODELY
MARKOVSKÉ ŘETĚZCE.
Odhady parametrů základního souboru
Kalmanuv filtr pro zpracování signálů a navigaci
ENERGIE KLASTRŮ VODY ZÍSKANÁ EVOLUČNÍMI ALGORITMY
Genetické algoritmy [GA]
Genetické algoritmy. V průběhu výpočtu používají náhodné operace. Algoritmus není jednoznačný, může projít více cestami. Nezaručují nalezení řešení.
Automated data mining Ing. Jan Černý Czech Technical University in Prague Faculty of Information Technology.
Odpovědi na otázky Praha 2007 Bc. Dalibor Barri ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Katedra mikroelektroniky.
Optimalizace v simulačním modelování. Obecně o optimalizaci  Optimalizovat znamená maximalizovat nebo minimalizovat parametrech (např. počet obslužných.
Robustní vyrovnání Věra Pavlíčková, únor 2014.
Získávání informací Získání informací o reálném systému
Optimalizační úlohy i pro nadané žáky základních škol
Pravděpodobnost a statistika opakování základních pojmů
Obsah prezentace Náhodná proměnná Rozdělení náhodné proměnné.
25. října 2004Statistika (D360P03Z) 4. předn.1 Statistika (D360P03Z) akademický rok 2004/2005 doc. RNDr. Karel Zvára, CSc. KPMS MFF UK
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
STANOVENÍ NEJISTOT PŘI VÝPOŠTU KONTAMINACE ZASAŽENÉHO ÚZEMÍ
Generování náhodných veličin (2) Spojitá rozdělení
Nechť (, , P) je pravděpodobnostní prostor:
Optimalizace versus simulace 9.přednáška. Obecně o optimalizaci  Maximalizovat nebo minimalizovat omezujících podmínkách.  Maximalizovat nebo minimalizovat.
Genetické algoritmy [GA]. Historie:  1960: I. Rechenberg – první odborná práce na toto téma „Evolution strategies“  1975: John Holland – první genetický.
1 Kognitivní inspirace třídění na základě závislostí atributů Jan Burian Eurfomise centrum – Kardio, Ústav informatiky AV ČR Článek je dostupný na WWW:
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Normální (Gaussovo) rozdělení
Zpomalování v nekonečném prostředí s absorpcí
Reprezentace klasifikátoru pomocí „diskriminant“ funkce
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Princip maximální entropie
Experimentální fyzika I. 2
Základy zpracování geologických dat
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Vektorové prostory.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
2. Vybrané základní pojmy matematické statistiky
Náhodný vektor Litschmannová, 2007.
Normální rozdělení a ověření normality dat
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
W i ref (t+1) = W i ref (t) + h ci (t) [X(t) - W i ref (t)], i Nc h ci (t) 0, t  proces konverguje Algoritmy a struktury neuropočítačů ASN – P3 SOM algoritmus.
Optimalizace versus simulace 8.přednáška. Obecně o optimalizaci  Maximalizovat nebo minimalizovat omezujících podmínkách.  Maximalizovat nebo minimalizovat.
(Popis náhodné veličiny)
Algoritmy a struktury neuropočítačů ASN - P14 Hopfieldovy sítě Asociativní paměti rekonstrukce původních nezkreslených vzorů předkládají se neúplné nebo.
Hustota pravděpodobnosti – případ dvou proměnných
METODA HRANIČNÍCH PRVKŮ (INTEGRÁLŮ)
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Aritmetický průměr - střední hodnota
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
Inferenční statistika - úvod
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
Náhodná veličina. Nechť (, , P) je pravděpodobnostní prostor:
MME51 Ekonomicko-matematické metody 5 Prof. RNDr. Jaroslav Ramík, CSc.
ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN Rovnoměrné rozdělení R(a,b) rozdělení s konstantní hustotou pravděpodobnosti v intervalu (a,b) a  x  b distribuční.
BIOSTATISTIKA LS 2016 Garant předmětu: Ing. Martina Litschmannová, Ph.D. Přednášející: Ing. Martina Litschmannová, Ph.D. Cvičící: Ing. Martina Litschmannová,
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Spojitá náhodná veličina
KIV/ZD cvičení 4 Tomáš Potužák.
Induktivní statistika
Induktivní statistika
Základy zpracování geologických dat Rozdělení pravděpodobnosti
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
ANALÝZA A KLASIFIKACE DAT
Rozdělení pravděpodobnosti
Plánování přesnosti měření v IG Úvod – základní nástroje TCHAVP
Induktivní statistika
Náhodné výběry a jejich zpracování
Princip max. věrohodnosti - odhad parametrů
Transkript prezentace:

Estimation of Distribution Algorithms Část II Petr Pošík Prezentace pro předmět Kognitivní procesy 6. dubna 2006

V minulém díle jste viděli...

Machine Learning & Softcomputing 3 / XX Co už známe… Black-box optimalizace GA vs. EDA  GA používají přístup select – crossover – mutate  EDA používají přístup select – model – sample EDA s binární reprezentací  Nejpřesnější model: úplná sdružená pst pst výskytu každé možné kombinace bitů 2 D -1 parametrů, exponenciální složitost  Použití méně přesných, ale jednodušších pravděpodobnostních modelů Z minula >

Machine Learning & Softcomputing 4 / XX Typy EDA s binární reprezentací Bez interakcí  1-rozměrné marginální psti P(X=x)  PBIL, UMDA Párové interakce  podmíněné psti P(X=x|Y=y)  řetězce (MIMIC), stromy (COMIT), lesy (BMDA) Vícenásobné interakce  podmíněné psti P(X=x|Y=y, Z=z,...)  bayesovské sítě (BOA, EBNA, LFDA) Z minula >

Machine Learning & Softcomputing 5 / XX Obsah přednášek 1. EDAs pro vektory diskrétních hodnot (např. binární)  Motivační příklad  Bez interakcí  Párové interakce  Vyšší interakce 2. EDAs pro vektory reálných čísel  Histogramy  Gaussovo rozdělení  Evoluční strategie  CMA-ES Úvod >

EDA pro vektory reálných čísel

Machine Learning & Softcomputing 7 / XX Fundamentální odlišnosti R D od {0,1} D Binární prostor 1. Každé kandidátské řešení se nachází v některém rohu hyperkrychle 2. Žádné mezilehlé hodnoty 3. Konečný počet prvků Reálný prostor 1. Interval v jednotlivých dimenzích nemusí být stanoven 2. I když stanoven je, existuje nekonečně mnoho mezilehlých hodnot (teoreticky, prakticky jsme omezeni numerickou přesností daného stroje) 3. Nekonečný počet prvků Reálná reprezentace >

Machine Learning & Softcomputing 8 / XX Fundamentální odlišnosti R D od {0,1} D Jak definovat lokální okolí? Kletba rozměrnosti! Jako množinu bodů, jejichž vzdálenost nepřesáhne jistou hranici?  Objem lokálního okolí vůči objemu st. prostoru exponenciálně klesá  Se vzrůstající dimenzí se okolí stává čím dál tím víc lokálním Jako množinu bodů, které jsou aktuálnímu bodu nejblíž a jejichž sjednocení zabírá jistou část objemu st. prostoru?  Rozměry lokálního okolí rostou s rostoucí dimenzí prostoru  Se vzrůstající dimenzí lokální okolí přestává být lokálním Reálná reprezentace >

Machine Learning & Softcomputing 9 / XX Přímé analogie s diskrétními EDA Bez interakcí  UMDA – stejný princip, mění se jen typ hustoty pravděpodobnosti  Jednorozměrné histogramy?  Jednorozměrné gaussovské rozdělení?  Jednorozměrná směs gaussovských rozdělení? Párové interakce, interakce vyšších řádů  Mnoho různých typů interakcí!  Model, který by uměl efektivně zachytit všechny typy interakcí, je těžké nalézt! Reálná reprezentace >

Machine Learning & Softcomputing 10 / XX UMDA Sdružená hustota pravděpodobnosti je faktorizována jako: kde p d (x d ) je jednorozměrná hustota pravděpodobnosti ve formě histogramu, gaussiánu, směsi gaussiánů,... Jednotlivé souřadnice nových vektorů se generují nezávisle na sobě Reálná reprezentace >

Machine Learning & Softcomputing 11 / XX Histogram se stejnou šířkou binů Nejpřímější analogie s diskrétními histogramy Nevýhoda: pokud nepadne do binu ani jeden vektor, není možné v tomto binu už žádný jiný vektor vygenerovat! Reálná reprezentace > UMDA

Machine Learning & Softcomputing 12 / XX Histogram se stejnou výškou binů Místo fixní šířky binu se zafixuje četnost bodů, které do binů padnou! Neexistují prázdné biny, vždy je možné vygenerovat vektor kdekoliv v hyperkrychli pokryté histogramem. Reálná reprezentace > UMDA

Machine Learning & Softcomputing 13 / XX Histogram s hranicemi v největších mezerách Najdou se největší mezery mezi vektory a do nich se umístí hranice binů Neexistují prázdné biny, vždy je možné vygenerovat vektor kdekoliv v hyperkrychli pokryté histogramem. Reálná reprezentace > UMDA

Machine Learning & Softcomputing 14 / XX Směs gaussiánů Hledá se pomocí EM algoritmu (pstní obdoba k-means shlukování) Vhodnější pro stavové prostory neomezené hyperkrychlí Reálná reprezentace > UMDA

Machine Learning & Softcomputing 15 / XX Testovací funkce: 2D Two Peaks Optimum v [1,1,...,1] 2 D lokálních optim Evoluce hranic binů (center složek pro MOG): Reálná reprezentace > UMDA

Machine Learning & Softcomputing 16 / XX Histogramové UMDA: shrnutí Vhodné, když:  je stavový prostor omezen hyperkrychlí  mezi jednotlivými dimenzemi nejsou velké závislosti Je možné předzpracovat populaci pomocí rotace souřadného systému  UMDA pak umí pracovat s lineárními interakcemi Reálná reprezentace > UMDA

Machine Learning & Softcomputing 17 / XX Optimalizace pomocí Gaussova rozdělení Případová studie: Optimalizace kvadratické funkce Truncation sel., z t nejlepších je tvořen model Model: Gaussovo rozdělení  Parametry odhadované metodou max. věrohodnosti Dvě situace:  Úvodní populace v okolí optima  Úvodní populace vzdálena od optima Reálná reprezentace >

Machine Learning & Softcomputing 18 / XX...pro monotónní fitness funkci Změna populačních statistik během 1 generace: Reálná reprezentace > Gaussovo rozdělení

Machine Learning & Softcomputing 19 / XX...pro monotónní fitness funkci Populační statistiky v generaci t pro monotónní funkci: Konvergence populačních statistik: Vzdálenost, kam může „docestovat“ populace u tohoto algoritmu, je omezená. Předčasná konvergence! Reálná reprezentace > Gaussovo rozdělení

Machine Learning & Softcomputing 20 / XX Řešení Nastavit hranici, pod kterou rozptyl nemůže klesnout K adaptaci rozptylu (mutačního kroku) použít jiné schéma než metodu max. věrohodnosti Závěry: Max. věrohodné odhady jsou vhodné v situaci, kdy model dobře odpovídá fitness funkci (alespoň v oblasti, kde se nachází populace)  Gauss je vhodný v okolí optima  Gauss je mnohem méně vhodný na „svahu“ Reálná reprezentace > Gaussovo rozdělení

Machine Learning & Softcomputing 21 / XX Evoluční strategie Klasické metody využívající Gaussovo rozdělení ( m, l )-ES nebo ( m + l )-ES  m rodičů, l potomků  ( m, l )... potomci kompletně nahrazují rodiče  ( m + l )... potomci jsou spojeni s rodiči Potomci vytvářeni pomocí mutace jako, kde x je rodič a x’ je potomek N(0, s 2 ) je izotropní normální rozdělení se směrodatnou odchylkou s Reálná reprezentace >

Machine Learning & Softcomputing 22 / XX Zvýšení flexibility: adaptace s s už není konstantní po celou dobu běhu ES Deterministické snižování s Zpětnovazební regulace s (pravidlo 1/5) Použít autoadaptaci s:  s se stává součástí chromozomu  chromozom obsahuje instrukce pro svou vlastní změnu Reálná reprezentace > Evoluční strategie

Machine Learning & Softcomputing 23 / XX Zvýšení flexibility: složitost modelu s není stejné ve všech dimenzích Použít diagonální kovarianční matici: Použít plnou kovarianční matici Ke změnám s d příp. S se obvykle používá autoadaptace Změny v kovarianční struktuře jsou stále velice náhodné! Reálná reprezentace > Evoluční strategie

Machine Learning & Softcomputing 24 / XX CMA-ES Derandomizovaná evoluční strategie (1, l )-ES s adaptací kovarianční matice: 1. Vygeneruj l potomků: 2. Na základě potomků aktualizuj parametry modelu: Reálná reprezentace > Evoluční strategie

Machine Learning & Softcomputing 25 / XX CMA-ES: Adaptace parametrů adaptace metodou max. věrohodnosti: adaptace takovým způsobem, aby bylo dosaženo konjugovanosti dvou po sobě jdoucích kroků, tj. konceptuálně Reálná reprezentace > Evoluční strategie

Machine Learning & Softcomputing 26 / XX CMA-ES: průběh optimalizace Reálná reprezentace > Evoluční strategie

Machine Learning & Softcomputing 27 / XX CMA-ES: shrnutí CMA-ES má kořeny v ES, ale vykazuje rysy typické pro EDA (adaptace a učení pstního modelu) Vykazuje vlastnosti lokálního optimalizátoru Přesto je považována za špičkovou metodu reálné black-box optimalizace, její výhody se projevují už při počtu 5-10 optimalizovaných proměnných Byla použita pro řešení mnoha optimalizačních úloh z reálného světa (ladění parametrů elektronických filtrů, prokládání nelineárních funkcí,...) Reálná reprezentace > Evoluční strategie

Machine Learning & Softcomputing 28 / XX EDA pro reálnou reprezentaci: shrnutí Mnohem méně rozvinuté než pro diskrétní řetězce Za obtížnost může hlavně:  kletba rozměrnosti  množství různých typů závislostí, které mohou mezi proměnnými existovat Přesto EDA (a obecně EA) pro reálnou reprezentaci dosahují lepších výsledků než konvenční optimalizační techniky (line search, Nelder-Mead simplex search,...) Reálná reprezentace > Evoluční strategie