© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

Matematické modelování a operační výzkum
OBECNÉ OPTIMALIZAČNÍ MODELY
Dualita úloh lineárního programování a analýza citlivosti
MARKOVSKÉ ŘETĚZCE.
Rekonstrukce povrchu objektů z řezů Obhajoba rigorózní práce 25. června 2003 Radek Sviták
Testování statistických hypotéz
Mechanika s Inventorem
Odhady parametrů základního souboru
Kalmanuv filtr pro zpracování signálů a navigaci
Genetické algoritmy. V průběhu výpočtu používají náhodné operace. Algoritmus není jednoznačný, může projít více cestami. Nezaručují nalezení řešení.
Dynamické programování
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
Lineární programování Simplexový algoritmus
LOGISTICKÉ SYSTÉMY 7/14.
LOGISTICKÉ SYSTÉMY 8/14.
Regresní analýza a korelační analýza
VÍCEKRITERIÁLNÍ ROZHODOVÁNÍ I.
64. Odhady úplných chyb a vah funkcí BrnoLenka Bocková.
Heuristické metody Heuristiky dělíme na primární a duální.
LINEÁRNÍ OPTIMALIZAČNÍ MODEL
Vícekriteriální rozhodování
Shluková analýza.
Formulace a vlastnosti úloh lineárního programování
CW – 05 TEORIE ROZHODOVACÍCH PROCESŮ Ústav technologie, mechanizace a řízení staveb Fakulta stavební VUT v Brně © Ing. Václav Rada, CSc. 15. PŘEDNÁŠKA.
Lineární regresní analýza
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Reprezentace klasifikátoru pomocí „diskriminant“ funkce
Experimentální fyzika I. 2
Zablokování (deadlock, smrtelné objetí, uváznutí)
SIGNÁLY A SOUSTAVY V MATEMATICKÉ BIOLOGII
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Gradientní metody Metoda největšího spádu (volný extrém)
Vektorové prostory.
Nelinearity s hysterezí Přerušení platnosti relace vytváří dvě různé charakteristiky, jejichž platnost je podmíněna směrem pohybu Hystereze přepínače x.
SIGNÁLY A LINEÁRNÍ SYSTÉMY
Simplexová metoda pro známé počáteční řešení úlohy LP
Lineární programování - charakteristika krajních bodů
Opakování lekce 4,5,
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Plánování trajektorie pro bezpilotní letoun za účelem sledování pozemních objektů pomocí inerciálně stabilizované kamerové platformy Michal Kreč Vedoucí.
ANALÝZA A KLASIFIKACE DAT
Vyhledávání vzorů (template matching)
SIGNÁLY A LINEÁRNÍ SYSTÉMY
© Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
© Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík, CSc.
Teorie portfolia Markowitzův model.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Úvod do databázových systémů
Simplexová metoda.
Ing. Milan Houška KOSA PEF ČZU v Praze
VÍCEKRITERIÁLNÍ ROZHODOVÁNÍ I.
Operační výzkum Lineární programování Dopravní úloha nevyrovnaná.
ANALÝZA A KLASIFIKACE DAT
Klasifikace a rozpoznávání
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
Lineární optimalizační model
ANALÝZA A KLASIFIKACE DAT
Toky v sítích.
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT
Plánování přesnosti měření v IG Úvod – základní nástroje TCHAVP
Lineární regrese.
ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT
ANALÝZA A KLASIFIKACE DAT
Transkript prezentace:

© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.

© Institut biostatistiky a analýz VII. VOLBA A VÝB Ě R P Ř ÍZNAK Ů

© Institut biostatistiky a analýz ZA Č ÍNÁME  kolik a jaké příznaky ?  málo příznaků – možná chyba klasifikace;  moc příznaků – možná nepřiměřená pracnost, vysoké náklady;  KOMPROMIS (potřebujeme kritérium)

© Institut biostatistiky a analýz ZA Č ÍNÁME KOMPROMIS (potřebujeme kritérium)  přípustná míra spolehlivosti klasifikace (např. pravděpodobnost chybné klasifikace, odchylka obrazu vytvořeného z vybraných příznaků vůči určitému referenčnímu);  určit ty příznakové proměnné, jejichž hodnoty nesou nejvíce informace z hlediska řešené úlohy, tj. ty proměnné, kterou jsou nejefektivnější pro vytvoření co nejoddělenějších klasifikačních tříd;

© Institut biostatistiky a analýz  algoritmus pro určení příznakových veličin nesoucích nejvíce informace pro klasifikátor není dosud teoreticky formalizován - pouze dílčí suboptimální řešení spočívající:  ve výběru nezbytného množství veličin z předem zvolené množiny;  vyjádření původních veličin pomocí menšího počtu skrytých nezávislých veličin, které zpravidla nelze přímo měřit, ale mohou nebo také nemusí mít určitou věcnou interpretaci ZA Č ÍNÁME

© Institut biostatistiky a analýz VOLBA P Ř ÍZNAK Ů  počáteční volba příznakových veličin je z velké části empirická, vychází ze zkušeností získaných při empirické klasifikaci člověkem a závisí, kromě rozboru podstaty problému i na technických (ekonomických) možnostech a schopnostech hodnoty veličin určit

© Institut biostatistiky a analýz ZÁSADY PRO VOLBU P Ř ÍZNAK Ů  výběr veličin s minimálním rozptylem uvnitř tříd

© Institut biostatistiky a analýz ZÁSADY PRO VOLBU P Ř ÍZNAK Ů  výběr veličin s maximální vzdáleností mezi třídami

© Institut biostatistiky a analýz  výběr vzájemně nekorelovaných veličin  pokud jsou hodnoty jedné příznakové veličiny závislé na příznacích druhé veličiny, pak použití obou těchto veličin nepřináší žádnou další informaci pro správnou klasifikaci – stačí jedna z nich, jedno která ZÁSADY PRO VOLBU P Ř ÍZNAK Ů

© Institut biostatistiky a analýz  výběr veličin invariantních vůči deformacím  volba elementů formálního popisu závisí na vlastnostech původních i předzpracovaných dat a může ovlivňovat způsob předzpracování ZÁSADY PRO VOLBU P Ř ÍZNAK Ů

© Institut biostatistiky a analýz VÝB Ě R P Ř ÍZNAK Ů  formální popis objektu původně reprezentovaný m rozměrným vektorem se snažíme vyjádřit vektorem n rozměrným tak, aby množství diskriminační informace obsažené v původním vektoru bylo v co největší míře zachováno Z : Y m  X n

© Institut biostatistiky a analýz VÝB Ě R P Ř ÍZNAK Ů dva principiálně různé způsoby:  selekce – nalezení a odstranění těch příznakových funkcí, které přispívají k separabilitě klasifikačních tříd nejméně;  extrakce – transformace původních příznakových proměnných na menší počet jiných příznakových proměnných

© Institut biostatistiky a analýz VÝB Ě R P Ř ÍZNAK Ů dva principiálně různé způsoby:  selekce – nalezení a odstranění těch příznakových funkcí, které přispívají k separabilitě klasifikačních tříd nejméně;  extrakce – transformace původních příznakových proměnných na menší počet jiných příznakových proměnných Abychom dokázali realizovat libovolný z obou způsobů výběru, je třeba definovat a splnit určité podmínky optimality.

© Institut biostatistiky a analýz VÝB Ě R P Ř ÍZNAK Ů PODMÍNKY OPTIMALITY Nechť J je kriteriální funkce, jejíž pomocí vybíráme příznakové veličiny. V případě selekce vybíráme vektor x= T (x 1,…,x n ) ze všech možných n-tic  příznaků y i, i=1,2,…,m. Optimalizaci selekce příznaků formálně zapíšeme jako Problémy k řešení:  stanovení kriteriální funkce;  stanovení nového rozměru kriteriální funkce;  stanovení optimalizačního postupu

© Institut biostatistiky a analýz VÝB Ě R P Ř ÍZNAK Ů PODMÍNKY OPTIMALITY Nechť J je kriteriální funkce, jejíž pomocí vybíráme příznakové veličiny. V případě extrakce transformujeme příznakový prostor na základě výběru zobrazení Z z množiny všech možných zobrazení  prostoru Y m do X n, tj. Příznakový prostor je pomocí optimálního zobrazení Z dán vztahem x = Z (y) Problémy k řešení:  stanovení kriteriální funkce;  stanovení nového rozměru kriteriální funkce;  zvolení požadavků na vlastnosti zobrazení;  stanovení optimalizačního postupu

© Institut biostatistiky a analýz SELEKCE P Ř ÍZNAK Ů KRITERIÁLNÍ FUNKCE  pro bayesovské klasifikátory (to už jsme si říkali) je-li x = (x 1, x 2,…, x n ) možná n-tice příznaků, vybraných ze všech možných m hodnot y i, i=1,…,m, n  m, pak pravděpodobnost chybného rozhodnutí P eme je pro tento výběr rovna

© Institut biostatistiky a analýz SELEKCE P Ř ÍZNAK Ů PRAVD Ě PODOBNOSTNÍ MÍRY  pro dichotomický bayesovský klasifikátor (R=2) je celková pravděpodobnost chybného rozhodnutí  pravděpodobnost chyby bude maximální, když integrál bude nulový – obě váhované hustoty pravděpodobnosti budou stejné, pravděpodobnost chyby bude minimální, když se obě hustoty nebudou překrývat.  Čím větší vzdálenost mezi klasifikačními třídami, tím menší pravděpodobnost chyby  Integrál může být považován za vyjádření „pravděpodobnostní vzdálenosti“

© Institut biostatistiky a analýz SELEKCE P Ř ÍZNAK Ů PRAVD Ě PODOBNOSTNÍ MÍRY  pro více klasifikačních tříd tzv. bayesovská vzdálenost

© Institut biostatistiky a analýz SELEKCE P Ř ÍZNAK Ů POM Ě R ROZPTYL Ů  rozptyl uvnitř třídy pomocí disperzní matice

© Institut biostatistiky a analýz SELEKCE P Ř ÍZNAK Ů POM Ě R ROZPTYL Ů  rozptyl mezi třídami může být dán  pokud

© Institut biostatistiky a analýz SELEKCE P Ř ÍZNAK Ů POM Ě R ROZPTYL Ů  vyjádření vztahu obou rozptylů J r1 (x)=tr(D -1 (x).B(x)) J r2 (x)=tr(B(x)/tr(D(x)) J r3 (x)=|D -1 (x).B(x)|= |B(x)|/|D(x)| J r4 (x) = ln(J r3 (x))

© Institut biostatistiky a analýz ALGORITMY SELEKCE P Ř ÍZNAK Ů  výběr optimální podmnožiny obsahující n (n m) příznakových proměnných – kombinatorický problém (m!/(m-n)!n! možných řešení)  hledáme jen kvazioptimální řešení

© Institut biostatistiky a analýz ALGORITMUS OHRANI Č ENÉHO V Ě TVENÍ předpoklad:  monotónnost kritéria selekce - označíme-li X j množinu obsahující j příznaků, pak monotónnost kritéria znamená, že podmnožiny X 1  X 2  …  X j  …  X m splňuje selekční kritérium vztah J(X 1 )  J(X 2 )  …  J(X m )

© Institut biostatistiky a analýz ALGORITMUS OHRANI Č ENÉHO V Ě TVENÍ uvažme případ selekce dvou příznaků z pěti

© Institut biostatistiky a analýz ALGORITMUS SEKVEN Č NÍ DOP Ř EDNÉ SELEKCE  algoritmus začíná s prázdnou množinou, do které se vloží proměnná s nejlepší hodnotou selekčního kritéria;  v každém následujícím kroku se přidá ta proměnná, která s dříve vybranými veličinami dosáhla nejlepší hodnoty kritéria, tj. J({X k+1 })=max J({X k y j }), y j {Y-X k }

© Institut biostatistiky a analýz ALGORITMUS SEKVEN Č NÍ ZP Ě TNÉ SELEKCE  algoritmus začíná s množinou všech příznakových veličin;  v každém následujícím kroku se eliminuje ta proměnná, která způsobuje nejmenší pokles kriteriální funkce, tj. po (k+1). kroku platí J({X m-k-1 })=max J({X m-k -y j }), y j {X m-k }

© Institut biostatistiky a analýz ALGORITMY SEKVEN Č NÍ SELEKCE SUBOPTIMALITA Suboptimalita nalezeného řešení sekvenčních algoritmů je způsobena:  dopředná selekce - tím, že nelze vyloučit ty veličiny, které se staly nadbytečné po přiřazení dalších veličin;  zpětná selekce – neexistuje možnost opravy při neoptimálním vyloučení kterékoliv proměnné; Dopředný algoritmus je výpočetně jednodušší, protože pracuje maximálně v n-rozměrném prostoru, naopak zpětný algoritmus umožňuje průběžně sledovat množství ztracené informace.

© Institut biostatistiky a analýz ALGORITMUS PLUS P MÍNUS Q  po přidání p veličin se q veličin odstraní;  proces probíhá, dokud se nedosáhne požadovaného počtu příznaků;  je-li p>q, pracuje algoritmus od prázdné množiny;  je-li p<q, varianta zpětného algoritmu

© Institut biostatistiky a analýz ALGORITMUS MIN - MAX Heuristický algoritmus vybírající příznaky na základě výpočtu hodnot kriteriální funkce pouze v jedno- a dvourozměrném příznakovém prostoru. Předpokládejme, že bylo vybráno k příznakových veličin do množiny {X k } a zbývají veličiny z množiny {Y-X k }. Výběr veličiny y j {Y-X k } přináší novou informaci, kterou můžeme ocenit relativně k libovolné veličině x i X k podle vztahu J(y j,x i ) = J(y j,x i ) - J(x i )

© Institut biostatistiky a analýz ALGORITMUS MIN - MAX Informační přírůstek J musí být co největší, ale musí být dostatečný pro všechny veličiny již zahrnuté do množiny X k. Vybíráme tedy veličinu y k+1, pro kterou platí J(y k+1,x k ) = max j min i J(y j,x i ), x i  X k

© Institut biostatistiky a analýz Příprava nových učebních materiálů oboru Matematická biologie je podporována projektem ESF č. CZ.1.07/2.2.00/ „ INTERDISCIPLINÁRNÍ ROZVOJ STUDIJNÍHO OBORU MATEMATICKÁ BIOLOGIE “ INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ