Multirelační GUHA, Ferda a genetická data Martin Ralbovský KIZI FIS VŠE
pptPlex Section Divider [Úvod do metody GUHA] pptPlex Section Divider The slides after this divider will be grouped into a section and given the label you type above. Feel free to move this slide to any position in the deck.
Metoda GUHA Původní česká metoda explorační analýzy dat Založena na logice (observační kalkuly) statistice (testování hypotéz) Téměř 40 let vývoje
Metoda GUHA - princip
Patterny, hypotézy, verifikace Pattern – jedna vygenerovaná formulka observačního kalkulu Prime pattern – pattern, který je pravdivý v datech a nevyplývá z jiného jednoduššího pravdivého patternu Hypotéza = pattern Verifikace = ověření jednoho patternu
Příklad procedury – 4FT Hledá asociační pravidla ve tvaru A ~ B kde A a B jsou Booleovské atributy a ~ je 4ft-kvantifikátor Příklad pravidla: District(SouthEast) ~ Status(Good)
pptPlex Section Divider [Multirelační GUHA] pptPlex Section Divider The slides after this divider will be grouped into a section and given the label you type above. Feel free to move this slide to any position in the deck.
Proč multirelační? Původní metoda byla omezena na minování pouze nad jednou tabulkou Jedna tabulka – tvrzení o vlastnostech jedné entity Více tabulek – vztahy mezi entitami Motivační příklad: Údaje o klientech v jedné tabulce Údaje o transakcích klientů v druhé tabulce
(Multi)relační metody - ILP ILP – inductive logic programming vhodné pro HODNĚ relací, z pozitivních a negativních příkladů (+ background knowledge) inferuje tvrzení ILP propozicionalizace z vícero tabulek sestrojí jednu, nad kterou se dají spustit jiné algoritmy výsledné atributy jsou konjunkce (negovaných) literálů predikátové logiky
(Multi)relační metody - další WARMR Spojení ILP a asociačních pravidel Nejdříve provede propozicionalizaci a potom hledá asociační pravidla RELAGGS Vypočítá agregace záznamů přímo v databázi Poté hledá asociační pravidla
Multirelační GUHA - princip Rozdělení úlohy na hlavní a vedlejší Master a detail tabulka - hvězdicové schéma Přidávání patternů z vedlejší úlohy do hlavní – virtuální atributy Příklad: Detail tabulka – klient často platící kartou ClientID ~ Payment(CreditCard) Master tabulka District(SoutEast)&ClientPayingByCreditCard ~ Status(Good)
Multirelační GUHA – detaily Pro každého klienta se vyberou pouze jemu odpovídající řádky v tabulce transakcí Pro každého klienta je různá hodnota virtuálního atributu (prozatím 0, 1) Co odpovídá virtuálnímu atributu – hypotéza nebo pattern?
Multirelační GUHA – omezení Problém s počtem virtuálních atributů v hlavní tabulce Hvězdicové schéma není teoretickým, ale praktickým omezením Příklad
Multirelační GUHA vs. Ostatní metody Ze všech metod umožňuje GUHA největší expresivitu Tato je vykoupena omezením na malý počet relací Hodí se na úlohy s málo tabulkami, ideálně velká master a malá detail.
Multirelační GUHA - implementace Konec 90. let – implementace v rámci systému LISp-Miner – nepoužívala se Disertace T. Karbana, Rel-Miner – nedokončeno Diplomová práce A. Kuzmina, Ferda – implementace multirelačních 4FT a SD4FT Neúspěšné pokusy na Barboře Slibné pokusy na genetických datech
pptPlex Section Divider [Ferda] pptPlex Section Divider The slides after this divider will be grouped into a section and given the label you type above. Feel free to move this slide to any position in the deck.
Ferda - historie Poslední z nástrojů implementující metodu GUHA Původně projekt MFF UK, nyní vyvíjen na KIZI FIS VŠE Založen 2003/2004 Obhájen 2006 Dále 6 diplomových a 1 bakalářská práce
Devatero řemesel… Vysoce modulární systém: Používá se middleware pro komunikaci Moduly mohou být napsány v 5 různých jazycích Moduly mohou komunikovat libovolně po síti Vlastní částečně rekurzivní programovací jazyk 7 relačních GUHA procedur, 2 multirelační procedury, nové kvantifikátory Podpora ontologií, podpora uživatelského rozhodování…
Ferda - architektura
FrontEnd – praktická ukázka
pptPlex Section Divider [Genetická data] pptPlex Section Divider The slides after this divider will be grouped into a section and given the label you type above. Feel free to move this slide to any position in the deck.
Genetická data Datový zdroj zkompilovaný na FEL ČVUT Měření expresí genů pomocí DNA mikrosond Affymetrics 2 zkoumané typy buňek – hematopoetická a stromální (tvorba kostní dřeně) 3 zkoumané organismy Data měření obohacená o informace o pathways a fluxes
Pathway a flux Molekulární pathway – graf reprezentující síť molekulárních reakcí a interakcí Full-coupled-flux (FCF) – lineární podgraf pathway (všechny geny v něm mají expresi) Pracovní hypotéza: exprese genů nějakým způsobem souvisí s tvorbou buňek Úroveň genů je příliš malá granularita Úroveň pathways je příliš velká granularita Zkusme FCF!
Schéma genetických dat – původní podoba
Experimenty Virtuální atributy typu „Vysoká exprese genu X ve FCF“ Výsledek: pravidla ve tvaru [FluxID(a) ~ GeneLevel(b)] ~ CellType(c) Použité kvantifikátory: 100% konfidence Prohlížení experimentů
Další práce Odladění + škálování Správná diskretizace hodnot atributů Sonda vs. chip