ANALÝZA A KLASIFIKACE DAT

Slides:



Advertisements
Podobné prezentace
Dynamické systémy.
Advertisements

ENVIRONMENTÁLNÍ INFORMATIKA A REPORTING
Základy informatiky přednášky Kódování.
Diagnostika vnitřních podmínek výuky
Statistika schématicky Tomáš Mrkvička. Základy znáte Konfidenční intervaly Porovnání 2 či více výběrů Regresní modely Základy časových řad.
Metody zpracování vybraných témat (projektů)
Metody zkoumání ekonomických jevů
Databáze Jiří Kalousek.
Adéla Masopustová Alena Seifrtová Lukáš Hůla
1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec.
Optimalizační úlohy i pro nadané žáky základních škol
Shluková analýza.
STANOVENÍ NEJISTOT PŘI VÝPOŠTU KONTAMINACE ZASAŽENÉHO ÚZEMÍ
Podnikové informační systémy C7 – Data Mining a získávání znalostí České vysoké učení technické v Praze Fakulta strojní ústav Řízení a ekonomiky podniku.
Informatika pro ekonomy II přednáška 10
Modelování a simulace MAS_02
Shluková analýza.
ZÁKLADNÍ SOUBOR Základní soubor (populace) je většinou myšlenková konstrukce, která obsahuje veškerá data, se kterými pracujeme a není vždy snadné jej.
Lineární regrese.
Statistika 2. přednáška Ing. Marcela Čapková.
Obchodní akademie, Ostrava-Poruba, příspěvková organizace Vzdělávací materiál/DUMVY_32_INOVACE_09/C1 AutorIng. Liběna Krchňáková Období vytvořeníSrpen.
Makrozoobentos a klasifikace toků Jarkovský J. 2,3, Kubošová K. 2,3, Zahrádková S. 1, Brabec K. 1, Kokeš J. 4, Klapka R. 2,3 1) Ústav botaniky a zoologie,
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Databázové modelování
SIGNÁLY A SOUSTAVY V MATEMATICKÉ BIOLOGII
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Základy zpracování geologických dat
Databázové systémy Informatika pro ekonomy, př. 18.
Rozhodovací proces, podpory rozhodovacích procesů
AKD VII.
Metrologie   Přednáška č. 5 Nejistoty měření.
© Institut biostatistiky a analýz SIGNÁLY A LINEÁRNÍ SYSTÉMY prof. Ing. Jiří Holčík, CSc.
Základy ekonometrie 4EK211
2. Vybrané základní pojmy matematické statistiky
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Opakování lekce 4,5,
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Ukončení: Zkouška Písemný test nebo ústní zkouška Obsah Zk: vysvětlení 4 didaktických pojmů + 2 otázky.
Biostatistika 1. přednáška Aneta Hybšová
ROZHODOVÁNÍ Osnova: 1. Východiska
ROZHODOVÁNÍ Osnova: Východiska Procesní stránka rozhodování
Algoritmy a struktury neuropočítačů ASN - P14 Hopfieldovy sítě Asociativní paměti rekonstrukce původních nezkreslených vzorů předkládají se neúplné nebo.
© Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
STATISTICKÝ ROZCESTNÍK aneb CO S DATY Martin Sebera.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Neuronové sítě. Vývoj NS 1943 – W. McCulloch, W. Pittse – první jednoduchý matematický model neuronu 1951 – M. Minsky - první neuropočítač Snark 1957.
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
© Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík, CSc.
Aplikovaná statistika 2.
BIOSTATISTIKA LS 2016 Garant předmětu: Ing. Martina Litschmannová, Ph.D. Přednášející: Ing. Martina Litschmannová, Ph.D. Cvičící: Ing. Martina Litschmannová,
Identifikace modelu Tvorba matematického modelu Kateřina Růžičková.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Ověření modelů a modelování Kateřina Růžičková. Posouzení kvality modelu Ověření (verifikace) ● kvalitativní hodnocení správnosti modelu ● zda model přijatelně.
Didaktika odborných předmětů jako vědní disciplína
Dobývání znalostí z databází dolování dat
Databázové systémy přednáška 13 – Analýza a reporting
Metody strojového učení
ANALÝZA A KLASIFIKACE DAT
Informatika pro ekonomy přednáška 8
Úloha syntézy čtyřčlenného rovinného mechanismu
SIGNÁLY A LINEÁRNÍ SYSTÉMY
Statistika a výpočetní technika
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT
Transkript prezentace:

ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ

KDY A KDE SE BUDEME VÍDAT?

LITERATURA Holčík,J.: Analýza a klasifikace dat. Brno, CERM 2012, 112s. http://www.iba.muni.cz/res/file/ucebnice/holcik-analyza-klasifikace-dat.pdf http://www.iba.muni.cz/index.php?pg=vyuka--ucebnice Holčík, J.: přednáškové prezentace Holčík, J.: Analýza a klasifikace signálů. [Učební texty VŠ], Brno, FE VUT 1992.

LITERATURA Duda,R.O., Hart,P., Stork,D.G. Pattern Classification. New York, John Wiley & Sons 2001 Theodoridis S., Koutroumbas K., Pattern Recognition. Amsterdam, Elsevier 2009 McLachlan,G.J.: Discriminant Analysis and Statistical Pattern Recognition. J.Wiley&Sons, Hoboken 2004 Webb,A.: Statistical Pattern Recognition. J.Wiley&Sons, Chichester 2002 Meloun, M., Militký,J.: Statistická analýza experimentálních dat. Praha, Academia 2004.

0. ČEM TO BUDE?

Anotace Předmět poskytne informaci o základních metodách a algoritmech pro výběr popisu, hodnocení a klasifikaci biomedicínských dat. Zabývá se základním tříděním klasifikačních přístupů – příznakové a strukturální a uvádí principy obou přístupů. Dále se zabývá podrobně zejména metodami příznakovými. Klasifikace podle diskriminačních funkcí (princip a stanovení diskriminačních funkcí na základě statistických vlastností množiny obrazů) a minimální vzdálenosti. Sekvenční klasifikace. Volba a výběr příznaků. Selekce a extrakce příznaků – analýza hlavních a nezávislých komponent, faktorová analýza. Učení klasifikátorů. Shlukování – podobnost mezi obrazy, podobnost mezi shluky, metody shlukování. Klasifikace pomocí neuronových sítí.

Anotace Předmět poskytne informaci o základních metodách a algoritmech pro výběr popisu, hodnocení a klasifikaci biomedicínských dat. Zabývá se základním tříděním klasifikačních přístupů – příznakové a strukturální a uvádí principy obou přístupů. Dále se zabývá podrobně zejména metodami příznakovými. Klasifikace podle diskriminačních funkcí (princip a stanovení diskriminačních funkcí na základě statistických vlastností množiny obrazů) a minimální vzdálenosti. Sekvenční klasifikace. Volba a výběr příznaků. Selekce a extrakce příznaků – analýza hlavních a nezávislých komponent, faktorová analýza. Učení klasifikátorů. Shlukování – podobnost mezi obrazy, podobnost mezi shluky, metody shlukování. Klasifikace pomocí neuronových sítí.

Osnova Klasifikace dat – základní terminologie. Klasifikace vs. diskriminační analýza vs. predikce. Klasifikace vs. regrese. Třídění klasifikačních algoritmů - klasifikace pomocí minimální vzdálenosti, pomocí ztotožnění s etalony, pomocí diskriminačních funkcí (lineární, nelineární), pomocí definice hranic mezi jednotlivými třídami. Parametrické vs. neparametrické přístupy. Učení s učitelem, bez učitele, s nedokonalým učitelem. Strukturální popis a klasifikace. Primitiva a relace, hierarchický a nehierarchický popis, reprezentace klasifikačních tříd pomocí gramatiky, automatu. Strukturální metriky. Příznakové metody. – Příznak, znak, diskriminátor, prediktor. Klasifikace podle minimální vzdálenosti – metrika, funkce podobnosti, vzdálenost mezi obrazy, vzdálenost mezi obrazem a množinou obrazů. Příklady metrik – deterministické, pravděpodobnostní. Příklady funkcí podobnosti - asociační koeficienty, korelační koeficienty. Příznaková klasifikace podle diskriminačních funkcí – Fisherův algoritmus, Bayesův klasifikátor. Stanovení diskriminačních funkcí na základě statistických vlastností množiny obrazů.

Osnova Příznaková klasifikace podle diskriminačních funkcí – Fisherův algoritmus, Bayesův klasifikátor. Stanovení diskriminačních funkcí na základě statistických vlastností množiny obrazů. Lineární diskriminační funkce – dichotomický a multikategoriální problém, zobecněné lineární diskriminační funkce. Lineárně separabilní a neseparabilní případy. Logistická diskriminace. Kontextová klasifikace – Bayesův klasifikátor, Markovovy modely, Viterbiho klasifikátor, skryté Markovovy modely, Volba a výběr příznaků. Selekce a extrakce (generování) příznaků, Transformace dat a redukce dimenzionality. Ordinační metody. Kritéria a algoritmy selekce příznaků. Faktorová analýza – princip, důsledky. Analýza komponent. Analýza hlavních komponent – princip, důsledky. Analýza nelineárních komponent – princip, důsledky. Analýza nezávislých komponent – princip, důsledky. Sekvenční klasifikace. Princip, Waldovo a Reedovo kritérium, jejich modifikované varianty.

Ukončení předmětu Požadavky: ústní zkouška dvě části: učená rozprava o některém z témat, která budou náplní předmětu; diskuze nad individuálním vyřešeným problémem týkajícím se problematiky klasifikace dat a používajícím některé z technik, které budou náplní předmětu;

I. ZAČÍNÁME

cíl zpracování dat

cíl zpracování dat Cílem jakéhokoliv zpracování (analýzy) dat je zpravidla posouzení zkoumaného reálného objektu (živého či neživého), který je zdrojem analyzovaných dat, příp. jeho stavu. Toto posouzení může nejčastěji vyústit: v rozhodnutí o typu či charakteru objektu – např. že daná rostlina je pomněnka lesní (Myosotis sylvatica), zvíře že je medvěd hnědý (Ursus arctos), nebo že daná budova je vystavěna v renesančním slohu – klasifikační úloha, resp. rozpoznávací; v posouzení kvality stavu analyzovaného objektu, např. zda je pacient v pořádku, nebo má infarkt myokardu, cirhózu jater, apod. – opět klasifikační, resp. rozpoznávací úloha; v rozhodnutí o budoucnosti objektu – např. zda lze pacienta léčit a vyléčit, zda les po 20 letech odumře, jaké bude sociální složení obyvatelstva na daném území a v daném čase – klasifikační nebo také predikční úloha

Cíl zpracování dat Chceme-li upřesnit dříve definovanýcíl zpracování (analýzy) dat, pak je to právě odhalení toho příčinného deterministického vztahu, navzdory všemu tomu, co to odhalení kazí.

OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT

OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT

OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT předzpracování filtrace rušivých složek x zvýraznění užitečných složek dat; rekonstrukce a doplnění chybějících údajů; konverze typu dat (A/Č převod); redukce dat; analýza dat určení hodnot příznaků (reprezentativních parametrů) – pro příznakové klasifikátory; nalezení primitiv (charakteristických tvarových segmentů) – strukturální klasifikátory klasifikátor – zatřídění do diagnostických kategorií

OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT předzpracování filtrace rušivých složek x zvýraznění užitečných složek dat; rekonstrukce a doplnění chybějících údajů; konverze typu dat (A/Č převod); redukce dat; analýza dat určení hodnot příznaků (reprezentativních parametrů) – pro příznakové klasifikátory; nalezení primitiv (charakteristických tvarových segmentů) – strukturální klasifikátory klasifikátor – zatřídění do diagnostických kategorií

OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT Analýza (z řečtiny – rozbor, rozčlenění) je vědecká metoda založená na dekompozici celku na elementární části. Cílem analýzy je identifikovat podstatné a nutné vlastnosti elementárních částí celku, poznat jejich podstatu a zákonitosti.

OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT Analýza (z řečtiny – rozbor, rozčlenění) je vědecká metoda založená na dekompozici celku na elementární části. Cílem analýzy je identifikovat podstatné a nutné vlastnosti elementárních částí celku, poznat jejich podstatu a zákonitosti. Syntéza je obecné označení pro proces spojení dvou nebo více částí do jednoho celku. S tímto pojmem se lze setkat v různých spojeních: syntéza obrazu, syntéza řeči, syntéza zvuku, chemická syntéza, jaderná syntéza, termonukleární syntéza, syntéza látek, fotosyntéza, proteosyntéza, biosyntéza, evoluční syntéza.

ANALÝZA V bloku analýzy se vytváří formální (abstraktní) popis zpracovávaných dat, který nese podstatnou informaci z hlediska kvality rozhodování při klasifikaci. Abstraktní popis se často nazývá obrazem (pattern) rozpoznávání obrazů (pattern recognition). V datech je vybrána určitá množina elementárních vlastností, příp. jejich elementárních částí a jejich vazeb, jejichž způsob popisu je apriori znám.

klasifikace rozumí se rozdělení (konkrétní či teoretické) dané skupiny (množiny) předmětů či jevů na konečný počet dílčích skupin (podmnožin), v nichž všechny předměty či jevy mají dostatečně podobné společné vlastnosti. Vlastnosti podle nichž lze klasifikaci zadat či provádět, určují klasifikační kritéria. Předměty (jevy), které mají podobnou uvažovanou vlastnost tvoří třídu.

klasifikÁTOR Klasifikátor je stroj (algoritmus,…) s jedním diskrétním výstupem, který udává třídu, do které klasifikátor zařadil vstupní reprezentaci dat ωr = d(x) d(x) je funkce argumentu x představujícího reprezentaci vstupních dat, kterou nazýváme rozhodovací pravidlo klasifikátoru; ωr je identifikátor klasifikační třídy; ωr| r=1,…,R  

Principy klasifikace

Principy klasifikace pomocí diskriminačních funkcí – funkcí, které určují míru příslušnosti k dané klasifikační třídě; pomocí definice hranic mezi jednotlivými třídami a logických pravidel; pomocí vzdálenosti od reprezentativních obrazů (etalonů) klasifikačních tříd; pomocí ztotožnění s etalony;

OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT

OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT UČENÍ učení klasifikátoru nastavení klasifikačních kritérií; s učitelem dokonalým nedokonalým bez učitele – typicky shlukování výběr prvků popisu dat stanovení reprezentativních charakteristických rysů zpracovávaného dat;

Základní členění vychází z reprezentace vstupních dat Typy klasifikátorů Základní členění vychází z reprezentace vstupních dat příznakové – každý vstupní data jsou vyjádřena vektorem hodnot (příznaků); paralelní (např. Bayesův klasifikátor, …) sekvenční (např. klasifikační stromy, …) strukturální (syntaktické) – vstupní data jsou popsána relačními strukturami; kombinované – jednotlivá primitiva jsou doplněna příznakovým popisem

Deterministický klasifikátor Typy klasifikátorů Deterministický klasifikátor každá deterministická klasifikace musí být jednoznačná a úplná, tzn., že každý obraz (předmět, jev) musí patřit do nějaké třídy a nemůže být současně ve dvou či více třídách. Pravděpodobnostní klasifikátor pravděpodobnostní klasifikátor stanoví pravděpodobnost zařazení obrazů do daných klasifikačních tříd

Typy klasifikátorů Na základě typů klasifikačních a učících algoritmů: parametrické; neparametrické

Klasifikace x predikce predikce (z lat. prae-, před, a dicere, říkat) zjevně nese časové hledisko, když jej používáme ve významu předpověď či prognózu, jako soud o tom, co se stane nebo nestane v budoucnosti. V tomto významu je používán např. v analýze či zpracování časových řad. (prediction x forecasting)

Klasifikace x predikce pojem klasifikace je používán, použije-li se klasifikačního algoritmu pro známá data. Pokud jsou data nová, pro která apriori neznáme klasifikační třídu, pak hovoříme o predikci klasifikační třídy. http://www.kdnuggets.com/faq/classification-vs-prediction.html (23.8.2010)

Klasifikace x predikce pojem klasifikace používáme, pokud vybíráme identifikátor klasifikační třídy z určitého diskrétního konečného počtu možných identifikátorů. Pokud určujeme (predikujeme) spojitou hodnotu, např. pomocí regrese, pak hovoříme o predikci, i když tento pojem nemá časovou dimenzi. Han, J., Kamber, M.: Data Mining Concepts and Techniques. The Morgan Kaufmann Series in Data Management Systems. 2nd edition, Elsevier; Amsterdam(2005), 800 s.

DISKRIMINAČNÍ ANALÝZA týká se obecně vztahu mezi kategoriální proměnnou a množinou vzájemně vázaných příznakových proměnných. Konkrétně, předpokládejme že existuje konečný počet, řekněme R, různých a priori známých populací, kategorií, tříd nebo skupin, které označujeme ωr, r=1,…,R a úkolem diskriminační analýzy je nalézt vztah, na základě kterého pro daný vektor příznaků popisujících konkrétní objekt tomuto vektoru přiřadíme hodnotu ωr.

OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT

Závěrem Shrnutí co je to klasifikace? klasifikace vs. predikce vs. diskriminační analýza základní principy klasifikace parametrická vs. neparametrická klasifikace

„VÍCEOBOROVÁ INOVACE STUDIA MATEMATICKÉ BIOLOGIE“ Příprava nových učebních materiálů pro obor Matematická biologie byla podporována projektem ESF č. CZ.1.07/2.2.00/07.0318 „VÍCEOBOROVÁ INOVACE STUDIA MATEMATICKÉ BIOLOGIE“ INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ