Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
Multirelační GUHA, Ferda a genetická data
Martin Ralbovský KIZI FIS VŠE
2
pptPlex Section Divider
[Úvod do metody GUHA] pptPlex Section Divider The slides after this divider will be grouped into a section and given the label you type above. Feel free to move this slide to any position in the deck.
3
Metoda GUHA Původní česká metoda explorační analýzy dat Založena na
logice (observační kalkuly) statistice (testování hypotéz) Téměř 40 let vývoje
4
Metoda GUHA - princip
5
Patterny, hypotézy, verifikace
Pattern – jedna vygenerovaná formulka observačního kalkulu Prime pattern – pattern, který je pravdivý v datech a nevyplývá z jiného jednoduššího pravdivého patternu Hypotéza = pattern Verifikace = ověření jednoho patternu
6
Příklad procedury – 4FT Hledá asociační pravidla ve tvaru A ~ B
kde A a B jsou Booleovské atributy a ~ je 4ft-kvantifikátor Příklad pravidla: District(SouthEast) ~ Status(Good)
7
pptPlex Section Divider
[Multirelační GUHA] pptPlex Section Divider The slides after this divider will be grouped into a section and given the label you type above. Feel free to move this slide to any position in the deck.
8
Proč multirelační? Původní metoda byla omezena na minování pouze nad jednou tabulkou Jedna tabulka – tvrzení o vlastnostech jedné entity Více tabulek – vztahy mezi entitami Motivační příklad: Údaje o klientech v jedné tabulce Údaje o transakcích klientů v druhé tabulce
9
(Multi)relační metody - ILP
ILP – inductive logic programming vhodné pro HODNĚ relací, z pozitivních a negativních příkladů (+ background knowledge) inferuje tvrzení ILP propozicionalizace z vícero tabulek sestrojí jednu, nad kterou se dají spustit jiné algoritmy výsledné atributy jsou konjunkce (negovaných) literálů predikátové logiky
10
(Multi)relační metody - další
WARMR Spojení ILP a asociačních pravidel Nejdříve provede propozicionalizaci a potom hledá asociační pravidla RELAGGS Vypočítá agregace záznamů přímo v databázi Poté hledá asociační pravidla
11
Multirelační GUHA - princip
Rozdělení úlohy na hlavní a vedlejší Master a detail tabulka - hvězdicové schéma Přidávání patternů z vedlejší úlohy do hlavní – virtuální atributy Příklad: Detail tabulka – klient často platící kartou ClientID ~ Payment(CreditCard) Master tabulka District(SoutEast)&ClientPayingByCreditCard ~ Status(Good)
12
Multirelační GUHA – detaily
Pro každého klienta se vyberou pouze jemu odpovídající řádky v tabulce transakcí Pro každého klienta je různá hodnota virtuálního atributu (prozatím 0, 1) Co odpovídá virtuálnímu atributu – hypotéza nebo pattern?
13
Multirelační GUHA – omezení
Problém s počtem virtuálních atributů v hlavní tabulce Hvězdicové schéma není teoretickým, ale praktickým omezením Příklad
14
Multirelační GUHA vs. Ostatní metody
Ze všech metod umožňuje GUHA největší expresivitu Tato je vykoupena omezením na malý počet relací Hodí se na úlohy s málo tabulkami, ideálně velká master a malá detail.
15
Multirelační GUHA - implementace
Konec 90. let – implementace v rámci systému LISp-Miner – nepoužívala se Disertace T. Karbana, Rel-Miner – nedokončeno Diplomová práce A. Kuzmina, Ferda – implementace multirelačních 4FT a SD4FT Neúspěšné pokusy na Barboře Slibné pokusy na genetických datech
16
pptPlex Section Divider
[Ferda] pptPlex Section Divider The slides after this divider will be grouped into a section and given the label you type above. Feel free to move this slide to any position in the deck.
17
Ferda - historie Poslední z nástrojů implementující metodu GUHA
Původně projekt MFF UK, nyní vyvíjen na KIZI FIS VŠE Založen 2003/2004 Obhájen 2006 Dále 6 diplomových a 1 bakalářská práce
18
Devatero řemesel… Vysoce modulární systém:
Používá se middleware pro komunikaci Moduly mohou být napsány v 5 různých jazycích Moduly mohou komunikovat libovolně po síti Vlastní částečně rekurzivní programovací jazyk 7 relačních GUHA procedur, 2 multirelační procedury, nové kvantifikátory Podpora ontologií, podpora uživatelského rozhodování…
19
Ferda - architektura
20
FrontEnd – praktická ukázka
21
pptPlex Section Divider
[Genetická data] pptPlex Section Divider The slides after this divider will be grouped into a section and given the label you type above. Feel free to move this slide to any position in the deck.
22
Genetická data Datový zdroj zkompilovaný na FEL ČVUT
Měření expresí genů pomocí DNA mikrosond Affymetrics 2 zkoumané typy buňek – hematopoetická a stromální (tvorba kostní dřeně) 3 zkoumané organismy Data měření obohacená o informace o pathways a fluxes
23
Pathway a flux Molekulární pathway – graf reprezentující síť molekulárních reakcí a interakcí Full-coupled-flux (FCF) – lineární podgraf pathway (všechny geny v něm mají expresi) Pracovní hypotéza: exprese genů nějakým způsobem souvisí s tvorbou buňek Úroveň genů je příliš malá granularita Úroveň pathways je příliš velká granularita Zkusme FCF!
24
Schéma genetických dat – původní podoba
25
Experimenty Virtuální atributy typu „Vysoká exprese genu X ve FCF“
Výsledek: pravidla ve tvaru [FluxID(a) ~ GeneLevel(b)] ~ CellType(c) Použité kvantifikátory: 100% konfidence Prohlížení experimentů
26
Další práce Odladění + škálování Správná diskretizace hodnot atributů
Sonda vs. chip
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.