© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

Přednáška č. 3 Normalizace dat, Datová a funkční analýza
ENVIRONMENTÁLNÍ INFORMATIKA A REPORTING
Základy informatiky přednášky Kódování.
Statistika schématicky Tomáš Mrkvička. Základy znáte Konfidenční intervaly Porovnání 2 či více výběrů Regresní modely Základy časových řad.
Metody zpracování vybraných témat (projektů)
Metody zkoumání ekonomických jevů
Databáze Jiří Kalousek.
1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec.
Optimalizační úlohy i pro nadané žáky základních škol
Shluková analýza.
STANOVENÍ NEJISTOT PŘI VÝPOŠTU KONTAMINACE ZASAŽENÉHO ÚZEMÍ
Podnikové informační systémy C7 – Data Mining a získávání znalostí České vysoké učení technické v Praze Fakulta strojní ústav Řízení a ekonomiky podniku.
Informatika pro ekonomy II přednáška 10
Modelování a simulace MAS_02
Shluková analýza.
ZÁKLADNÍ SOUBOR Základní soubor (populace) je většinou myšlenková konstrukce, která obsahuje veškerá data, se kterými pracujeme a není vždy snadné jej.
Lineární regrese.
Makrozoobentos a klasifikace toků Jarkovský J. 2,3, Kubošová K. 2,3, Zahrádková S. 1, Brabec K. 1, Kokeš J. 4, Klapka R. 2,3 1) Ústav botaniky a zoologie,
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
SIGNÁLY A SOUSTAVY V MATEMATICKÉ BIOLOGII
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Základy zpracování geologických dat
Databázové systémy Informatika pro ekonomy, př. 18.
Rozhodovací proces, podpory rozhodovacích procesů
AKD VII.
Metrologie   Přednáška č. 5 Nejistoty měření.
© Institut biostatistiky a analýz SIGNÁLY A LINEÁRNÍ SYSTÉMY prof. Ing. Jiří Holčík, CSc.
SIGNÁLY A LINEÁRNÍ SYSTÉMY
Základy ekonometrie 4EK211
2. Vybrané základní pojmy matematické statistiky
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Opakování lekce 4,5,
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Ukončení: Zkouška Písemný test nebo ústní zkouška Obsah Zk: vysvětlení 4 didaktických pojmů + 2 otázky.
Výzkum veřejného mínění a jeho realizace
Biostatistika 1. přednáška Aneta Hybšová
ROZHODOVÁNÍ Osnova: 1. Východiska
ANALÝZA A KLASIFIKACE DAT
© Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík, CSc.
Algoritmy a struktury neuropočítačů ASN - P14 Hopfieldovy sítě Asociativní paměti rekonstrukce původních nezkreslených vzorů předkládají se neúplné nebo.
© Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
STATISTICKÝ ROZCESTNÍK aneb CO S DATY Martin Sebera.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Neuronové sítě. Vývoj NS 1943 – W. McCulloch, W. Pittse – první jednoduchý matematický model neuronu 1951 – M. Minsky - první neuropočítač Snark 1957.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
© Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík, CSc.
Aplikovaná statistika 2.
Úvod do kybernetiky Kybernetika se zabývá dynamikou komplexních soustav z hlediska řízení procesů, které v nich probíhají. Řízení je společný název pro.
BIOSTATISTIKA LS 2016 Garant předmětu: Ing. Martina Litschmannová, Ph.D. Přednášející: Ing. Martina Litschmannová, Ph.D. Cvičící: Ing. Martina Litschmannová,
Identifikace modelu Tvorba matematického modelu Kateřina Růžičková.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Didaktika odborných předmětů jako vědní disciplína
ANALÝZA A KLASIFIKACE DAT
Dobývání znalostí z databází dolování dat
Databázové systémy přednáška 13 – Analýza a reporting
Metody strojového učení
ANALÝZA A KLASIFIKACE DAT
Informatika pro ekonomy přednáška 8
Spojitá a kategoriální data Základní popisné statistiky
SIGNÁLY A LINEÁRNÍ SYSTÉMY
Pravděpodobnost a matematická statistika I.
Statistika a výpočetní technika
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT
Transkript prezentace:

© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.

© Institut biostatistiky a analýz KDY A KDE SE BUDEME VÍDAT?

© Institut biostatistiky a analýz LITERATURA  Holčík, J.: přednáškové prezentace  Holčík, J.: Analýza a klasifikace signálů. [Učební texty VŠ], Brno, FE VUT 1992.

© Institut biostatistiky a analýz LITERATURA  Duda,R.O., Hart,P., Stork,D.G. Pattern Classification. New York, John Wiley & Sons 2001  Theodoridis S., Koutroumbas K., Pattern Recognition. Amsterdam, Elsevier 2009  McLachlan,G.J.: Discriminant Analysis and Statistical Pattern Recognition. J.Wiley&Sons, Hoboken 2004  Webb,A.: Statistical Pattern Recognition. J.Wiley&Sons, Chichester 2002  Meloun, M., Militký,J.: Statistická analýza experimentálních dat. Praha, Academia 2004.

© Institut biostatistiky a analýz 0. Č EM TO BUDE?

© Institut biostatistiky a analýz ANOTACE Předmět poskytne informaci o základních metodách a algoritmech pro výběr popisu, hodnocení a klasifikaci biomedicínských dat. Zabývá se základním tříděním klasifikačních přístupů – příznakové a strukturální a uvádí principy obou přístupů. Dále se zabývá podrobně zejména metodami příznakovými. Klasifikace podle diskriminačních funkcí (princip a stanovení diskriminačních funkcí na základě statistických vlastností množiny obrazů) a minimální vzdálenosti. Sekvenční klasifikace. Volba a výběr příznaků. Selekce a extrakce příznaků – analýza hlavních a nezávislých komponent, faktorová analýza. Učení klasifikátorů. Shlukování – podobnost mezi obrazy, podobnost mezi shluky, metody shlukování. Klasifikace pomocí neuronových sítí.

© Institut biostatistiky a analýz ANOTACE Předmět poskytne informaci o základních metodách a algoritmech pro výběr popisu, hodnocení a klasifikaci biomedicínských dat. Zabývá se základním tříděním klasifikačních přístupů – příznakové a strukturální a uvádí principy obou přístupů. Dále se zabývá podrobně zejména metodami příznakovými. Klasifikace podle diskriminačních funkcí (princip a stanovení diskriminačních funkcí na základě statistických vlastností množiny obrazů) a minimální vzdálenosti. Sekvenční klasifikace. Volba a výběr příznaků. Selekce a extrakce příznaků – analýza hlavních a nezávislých komponent, faktorová analýza. Učení klasifikátorů. Shlukování – podobnost mezi obrazy, podobnost mezi shluky, metody shlukování. Klasifikace pomocí neuronových sítí.

© Institut biostatistiky a analýz OSNOVA  Klasifikace dat – základní terminologie. Klasifikace vs. diskriminační analýza vs. predikce. Klasifikace vs. regrese. Třídění klasifikačních algoritmů - klasifikace pomocí minimální vzdálenosti, pomocí ztotožnění s etalony, pomocí diskriminačních funkcí (lineární, nelineární), pomocí definice hranic mezi jednotlivými třídami.  Parametrické vs. neparametrické přístupy. Učení s učitelem, bez učitele, s nedokonalým učitelem.  Strukturální popis a klasifikace. Primitiva a relace, hierarchický a nehierarchický popis, reprezentace klasifikačních tříd pomocí gramatiky, automatu. Strukturální metriky.  Příznakové metody. – Příznak, znak, diskriminátor, prediktor. Klasifikace podle minimální vzdálenosti – metrika, funkce podobnosti, vzdálenost mezi obrazy, vzdálenost mezi obrazem a množinou obrazů. Příklady metrik – deterministické, pravděpodobnostní. Příklady funkcí podobnosti - asociační koeficienty, korelační koeficienty.  Příznaková klasifikace podle diskriminačních funkcí – Fisherův algoritmus, Bayesův klasifikátor. Stanovení diskriminačních funkcí na základě statistických vlastností množiny obrazů.

© Institut biostatistiky a analýz OSNOVA  Příznaková klasifikace podle diskriminačních funkcí – Fisherův algoritmus, Bayesův klasifikátor. Stanovení diskriminačních funkcí na základě statistických vlastností množiny obrazů.  Lineární diskriminační funkce – dichotomický a multikategoriální problém, zobecněné lineární diskriminační funkce. Lineárně separabilní a neseparabilní případy. Logistická diskriminace.  Kontextová klasifikace – Bayesův klasifikátor, Markovovy modely, Viterbiho klasifikátor, skryté Markovovy modely,  Volba a výběr příznaků. Selekce a extrakce (generování) příznaků, Transformace dat a redukce dimenzionality. Ordinační metody. Kritéria a algoritmy selekce příznaků.  Faktorová analýza – princip, důsledky.  Analýza komponent. Analýza hlavních komponent – princip, důsledky.  Analýza nelineárních komponent – princip, důsledky. Analýza nezávislých komponent – princip, důsledky.  Sekvenční klasifikace. Princip, Waldovo a Reedovo kritérium, jejich modifikované varianty.

© Institut biostatistiky a analýz UKON Č ENÍ P Ř EDM Ě TU Požadavky:  ústní zkouška  dvě části:  učená rozprava o některém z témat, která budou náplní předmětu;  diskuze nad vyřešeným problémem týkajícím se problematiky klasifikace dat a používajícím některé z technik, které budou náplní předmětu;

© Institut biostatistiky a analýz I. ZA Č ÍNÁME

© Institut biostatistiky a analýz OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT

© Institut biostatistiky a analýz OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT

© Institut biostatistiky a analýz ZPRACOVÁNÍ  předzpracování  filtrace rušivých složek x zvýraznění užitečných složek signálu;  rekonstrukce a doplnění chybějících údajů;  konverze typu dat;  redukce dat;  (A/Č převod);  analýza dat  určení hodnot příznaků (reprezentativních parametrů) – pro příznakové klasifikátory;  nalezení primitiv (charakteristických tvarových segmentů) – strukturální klasifikátory  klasifikátor –  zatřídění do diagnostických kategorií OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT

© Institut biostatistiky a analýz ZPRACOVÁNÍ  předzpracování  filtrace rušivých složek x zvýraznění užitečných složek signálu;  rekonstrukce a doplnění chybějících údajů;  konverze typu dat;  redukce dat;  (A/Č převod);  analýza dat  určení hodnot příznaků (reprezentativních parametrů) – pro příznakové klasifikátory;  nalezení primitiv (charakteristických tvarových segmentů) – strukturální klasifikátory  klasifikátor –  zatřídění do diagnostických kategorií OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT

© Institut biostatistiky a analýz  Analýza (z řečtiny – rozbor, rozčlenění) je vědecká metoda založená na dekompozici celku na elementární části. Cílem analýzy je identifikovat podstatné a nutné vlastnosti elementárních částí celku, poznat jejich podstatu a zákonitosti. OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT

© Institut biostatistiky a analýz  Analýza (z řečtiny – rozbor, rozčlenění) je vědecká metoda založená na dekompozici celku na elementární části. Cílem analýzy je identifikovat podstatné a nutné vlastnosti elementárních částí celku, poznat jejich podstatu a zákonitosti.  Syntéza je obecné označení pro proces spojení dvou nebo více částí do jednoho celku. S tímto pojmem se lze setkat v různých spojeních: syntéza obrazu, syntéza řeči, syntéza zvuku, chemická syntéza, jaderná syntéza, termonukleární syntéza, syntéza látek, fotosyntéza, proteosyntéza, biosyntéza, evoluční syntéza. OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT

© Institut biostatistiky a analýz ANALÝZA V bloku analýzy se vytváří formální (abstraktní) popis zpracovávaných dat, který nese podstatnou informaci z hlediska kvality rozhodování při klasifikaci. Abstraktní popis se často nazývá obrazem (pattern) rozpoznávání obrazů (pattern recognition). V datech je vybrána určitá množina elementárních vlastností, příp. jejich elementárních částí a jejich vazeb, jejichž způsob popisu je apriori znám.

© Institut biostatistiky a analýz KLASIFIKACE  rozumí se rozdělení (konkrétní či teoretické) dané skupiny (množiny) předmětů či jevů na konečný počet dílčích skupin (podmnožin), v nichž všechny předměty či jevy mají dostatečně podobné společné vlastnosti. Vlastnosti podle nichž lze klasifikaci zadat či provádět, určují klasifikační kritéria. Předměty (jevy), které mají podobnou uvažovanou vlastnost tvoří třídu.

© Institut biostatistiky a analýz  Klasifikátor je stroj (algoritmus,…) s jedním diskrétním výstupem, který udává třídu, do které klasifikátor zařadil vstupní reprezentaci dat ω r = d(x) d(x) je funkce argumentu x představujícího reprezentaci vstupních dat, kterou nazýváme rozhodovací pravidlo klasifikátoru; ω r je identifikátor klasifikační třídy; ω r | r=1,…,R   KLASIFIKÁTOR

© Institut biostatistiky a analýz PRINCIPY KLASIFIKACE

© Institut biostatistiky a analýz PRINCIPY KLASIFIKACE  pomocí diskriminačních funkcí – funkcí, které určují míru příslušnosti k dané klasifikační třídě;  pomocí definice hranic mezi jednotlivými třídami a logických pravidel;  pomocí vzdálenosti od reprezentativních obrazů (etalonů) klasifikačních tříd;  pomocí ztotožnění s etalony;

© Institut biostatistiky a analýz OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT

© Institut biostatistiky a analýz UČENÍ  učení klasifikátoru  nastavení klasifikačních kritérií;  s učitelem dokonalým nedokonalým  bez učitele – typicky shlukování  výběr prvků popisu dat  stanovení reprezentativních charakteristických rysů zpracovávaného dat; OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT

© Institut biostatistiky a analýz TYPY KLASIFIKÁTOR Ů Základní členění vychází z reprezentace vstupních dat  příznakové – každý vstupní data jsou vyjádřena vektorem hodnot (příznaků);  paralelní (např. Bayesův klasifikátor, …)  sekvenční (např. klasifikační stromy, …)  strukturální (syntaktické) – vstupní data jsou popsána relačními strukturami;  kombinované – jednotlivá primitiva jsou doplněna příznakovým popisem

© Institut biostatistiky a analýz TYPY KLASIFIKÁTOR Ů Deterministický klasifikátor  každá deterministická klasifikace musí být jednoznačná a úplná, tzn., že každý obraz (předmět, jev) musí patřit do nějaké třídy a nemůže být současně ve dvou či více třídách. Pravděpodobnostní klasifikátor  pravděpodobnostní klasifikátor stanoví pravděpodobnost zařazení obrazů do daných klasifikačních tříd

© Institut biostatistiky a analýz TYPY KLASIFIKÁTOR Ů Na základě typů klasifikačních a učících algoritmů:  parametrické;  neparametrické

© Institut biostatistiky a analýz KLASIFIKACE x PREDIKCE predikce (z lat. prae-, před, a dicere, říkat) zjevně nese časové hledisko, když jej používáme ve významu předpověď či prognózu, jako soud o tom, co se stane nebo nestane v budoucnosti. V tomto významu je používán např. v analýze či zpracování časových řad. prognózubudoucnosti (prediction x forecasting)

© Institut biostatistiky a analýz KLASIFIKACE x PREDIKCE pojem klasifikace je používán, použije-li se klasifikačního algoritmu pro známá data. Pokud jsou data nová, pro která apriori neznáme klasifikační třídu, pak hovoříme o predikci klasifikační třídy. prediction.htmlhttp:// prediction.html ( )

© Institut biostatistiky a analýz KLASIFIKACE x PREDIKCE pojem klasifikace používáme, pokud vybíráme identifikátor klasifikační třídy z určitého diskrétního konečného počtu možných identifikátorů. Pokud určujeme (predikujeme) spojitou hodnotu, např. pomocí regrese, pak hovoříme o predikci, i když tento pojem nemá časovou dimenzi. Han, J., Kamber, M.: Data Mining Concepts and Techniques. The Morgan Kaufmann Series in Data Management Systems. 2 nd edition, Elsevier; Amsterdam(2005), 800 s.

© Institut biostatistiky a analýz DISKRIMINA Č NÍ ANALÝZA týká se obecně vztahu mezi kategoriální proměnnou a množinou vzájemně vázaných příznakových proměnných. Konkrétně, předpokládejme že existuje konečný počet, řekněme R, různých a priori známých populací, kategorií, tříd nebo skupin, které označujeme ω r, r=1,…,R a úkolem diskriminační analýzy je nalézt vztah, na základě kterého pro daný vektor příznaků popisujících konkrétní objekt tomuto vektoru přiřadíme hodnotu ω r.

© Institut biostatistiky a analýz OBECNÉ SCHÉMA ZPRACOVÁNÍ DAT

© Institut biostatistiky a analýz ZÁV Ě REM SHRNUTÍ  co je to klasifikace?  klasifikace vs. predikce vs. diskriminační analýza  základní principy klasifikace  parametrická vs. neparametrická klasifikace

© Institut biostatistiky a analýz Příprava nových učebních materiálů pro obor Matematická biologie je podporována projektem ESF č. CZ.1.07/2.2.00/ „ VÍCEOBOROVÁ INOVACE STUDIA MATEMATICKÉ BIOLOGIE “ INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ