1 Kognitivní inspirace třídění na základě závislostí atributů Jan Burian Eurfomise centrum – Kardio, Ústav informatiky AV ČR Článek je dostupný na WWW: burian_classification.rtf
2 Učení bez učitele a třídění Učení bez učitele – rozpoznáváme v datech jisté pravidelnosti, aniž bychom disponovali informací, kde a jak tyto pravidelnosti hledat Typická úloha – nalézt způsob jak roztřídit záznamy v tabulce relační databáze Klasické třídění – nalézt funkci rozdělující shluky záznamů v prostoru atributů s danou metrikou
3 Problém klasického třídění V případě, že máme kategoriální atributy, klasické třídění postihuje vztahy mezi záznamy v třídě vždy v rámci jednoho atributu, nepostihuje vztahy mezi atributy Vztah mezi atributy je vlastností celku Klasické třídění nepostihuje vlastnost skupiny záznamů jako celku, vlastnosti třídy se dají redukovat na vlastnosti jednotlivých částí (záznamů) Inspirativní řešení – kognitivní vědy
4 Kognitivní vědy Zabývají se procesem poznávání v živých i umělých systémech Poznávání můžeme chápat jako proces získávání znalostí Učení jedna ze základních složek poznávání Inspirace – neurofyziologie ukládání a vybavování znalostí v mozku
5 Kognitivní inspirace Poškození mozku nezpůsobuje úplnou ztrátu schopnosti vybavovat si naučené znalosti, ale pouze zmenšení této schopnosti Znalosti nejsou poškozením odstraněny nebo vymazány, jen je snížena jejich celková kvalita
6 Kognitivní inspirace Znalosti nejsou v mozku uložené v jednotlivých neuronech, ale jsou distribuovány v rozsáhlých vzorech aktivit neuronových drah Znalosti v mozku se nedají redukovat na součet jednotlivých částí, ale vznikají až jako vlastnost celku Inspirace - chápat vztahy mezi třídami záznamů v databázi nikoliv jako odlišnost jednotlivých záznamů, ale jako odlišnost mezi charakteristikami celků jednotlivých tříd
7 Vztah atributů Vhodnou charakteristikou skupiny záznamů je ohodnocení závislostí atributů na základě kontingenční tabulky
8 Třídící atribut V odlišných skupinách záznamů mohou (ale nemusí) být odlišné závislosti atributy Chceme najít způsob jak roztřídit záznamy tak, aby mezi třídami byly co nejodlišnější závislosti mezi atributy Pokusme se najít takový atribut jehož kategorie roztřídí záznamy do tříd s maximálně odlišnými závislostmi atributů.
9 Závislost atributů Nechť V je množina všech atributů tabulky databáze Nechť C V je kandidát na třídící atribut a C 1,C 2 … C k jsou kategorie (třídy) tohoto atributu Pro A,S V; A S; A,S C označme AD(A,S|C i ) odnotu nějaké testové statistiky (například χ², Kendallův koeficient apod.) o závislosti dvou atributů A a S ve třídě C i.
10 Odlišnost jako úhel mezi vektorem závislostí a osou souřadnic Pro AD(A,S|C 1 ) =AD(A,S|C 2 ) bod [AD(A,S|C 1 ) ; AD(A,S|C 2 ) ] se nalézá na ose souřadnic úhel je nulový závislost A a S není podmíněna C
11 Odlišnost závislostí atributů v třídách ADCD (Attribute Dependency Class Difference) Suma odlišností závislostí atributů v třídách pro různé kombinace atributů Použití kosinové věty Maximální odlišnost závislostí mezi atributy má minimální ADCD
12 Postup identifikace třídícího atributu Pro každého kandidáta na třídící atribut vyber z databázové tabulky třídy podle jeho kategorií (skupina záznamů, u kterých se daná kategorie vyskytuje). Pro tyto třídy vygeneruj závislosti dvojic ostatních atributů. Urči odlišnost závislostí atributů v třídách (ADCD) pro jednotlivé kandidáty na třídící algoritmus. Vyber jako třídící ten atribut, u nějž je odlišnost závislostí atributů v třídách maximální.
13 Závěr a další vývoj Zatím není implementováno, ale … Procedura KL-Miner (součást systému LISp-Miner), generuje vztahy mezi atributy na základě kontingenční tabulky Ve vývoji je program SDKL-Miner hledající zajímavé odlišnosti mezi vztahy atributů ve dvou zadaných skupinách záznamů
14 Závěr a další vývoj Obecný problém: Tvorba nového atributu, který záznamy roztřídí tak, aby odlišnost závislostí atributů v třídách byla maximální ze všech možných roztřídění. Patrně vhodné použití suboptimálních a subsymbolických metod (neuronové sítě, genetické algoritmy)