Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Multirelační GUHA, Ferda a genetická data

Podobné prezentace


Prezentace na téma: "Multirelační GUHA, Ferda a genetická data"— Transkript prezentace:

1 Multirelační GUHA, Ferda a genetická data
Martin Ralbovský KIZI FIS VŠE

2 pptPlex Section Divider
[Úvod do metody GUHA] pptPlex Section Divider The slides after this divider will be grouped into a section and given the label you type above. Feel free to move this slide to any position in the deck.

3 Metoda GUHA Původní česká metoda explorační analýzy dat Založena na
logice (observační kalkuly) statistice (testování hypotéz) Téměř 40 let vývoje

4 Metoda GUHA - princip

5 Patterny, hypotézy, verifikace
Pattern – jedna vygenerovaná formulka observačního kalkulu Prime pattern – pattern, který je pravdivý v datech a nevyplývá z jiného jednoduššího pravdivého patternu Hypotéza = pattern Verifikace = ověření jednoho patternu

6 Příklad procedury – 4FT Hledá asociační pravidla ve tvaru A ~ B
kde A a B jsou Booleovské atributy a ~ je 4ft-kvantifikátor Příklad pravidla: District(SouthEast) ~ Status(Good)

7 pptPlex Section Divider
[Multirelační GUHA] pptPlex Section Divider The slides after this divider will be grouped into a section and given the label you type above. Feel free to move this slide to any position in the deck.

8 Proč multirelační? Původní metoda byla omezena na minování pouze nad jednou tabulkou Jedna tabulka – tvrzení o vlastnostech jedné entity Více tabulek – vztahy mezi entitami Motivační příklad: Údaje o klientech v jedné tabulce Údaje o transakcích klientů v druhé tabulce

9 (Multi)relační metody - ILP
ILP – inductive logic programming vhodné pro HODNĚ relací, z pozitivních a negativních příkladů (+ background knowledge) inferuje tvrzení ILP propozicionalizace z vícero tabulek sestrojí jednu, nad kterou se dají spustit jiné algoritmy výsledné atributy jsou konjunkce (negovaných) literálů predikátové logiky

10 (Multi)relační metody - další
WARMR Spojení ILP a asociačních pravidel Nejdříve provede propozicionalizaci a potom hledá asociační pravidla RELAGGS Vypočítá agregace záznamů přímo v databázi Poté hledá asociační pravidla

11 Multirelační GUHA - princip
Rozdělení úlohy na hlavní a vedlejší Master a detail tabulka - hvězdicové schéma Přidávání patternů z vedlejší úlohy do hlavní – virtuální atributy Příklad: Detail tabulka – klient často platící kartou ClientID ~ Payment(CreditCard) Master tabulka District(SoutEast)&ClientPayingByCreditCard ~ Status(Good)

12 Multirelační GUHA – detaily
Pro každého klienta se vyberou pouze jemu odpovídající řádky v tabulce transakcí Pro každého klienta je různá hodnota virtuálního atributu (prozatím 0, 1) Co odpovídá virtuálnímu atributu – hypotéza nebo pattern?

13 Multirelační GUHA – omezení
Problém s počtem virtuálních atributů v hlavní tabulce Hvězdicové schéma není teoretickým, ale praktickým omezením Příklad

14 Multirelační GUHA vs. Ostatní metody
Ze všech metod umožňuje GUHA největší expresivitu Tato je vykoupena omezením na malý počet relací Hodí se na úlohy s málo tabulkami, ideálně velká master a malá detail.

15 Multirelační GUHA - implementace
Konec 90. let – implementace v rámci systému LISp-Miner – nepoužívala se Disertace T. Karbana, Rel-Miner – nedokončeno Diplomová práce A. Kuzmina, Ferda – implementace multirelačních 4FT a SD4FT Neúspěšné pokusy na Barboře Slibné pokusy na genetických datech

16 pptPlex Section Divider
[Ferda] pptPlex Section Divider The slides after this divider will be grouped into a section and given the label you type above. Feel free to move this slide to any position in the deck.

17 Ferda - historie Poslední z nástrojů implementující metodu GUHA
Původně projekt MFF UK, nyní vyvíjen na KIZI FIS VŠE Založen 2003/2004 Obhájen 2006 Dále 6 diplomových a 1 bakalářská práce

18 Devatero řemesel… Vysoce modulární systém:
Používá se middleware pro komunikaci Moduly mohou být napsány v 5 různých jazycích Moduly mohou komunikovat libovolně po síti Vlastní částečně rekurzivní programovací jazyk 7 relačních GUHA procedur, 2 multirelační procedury, nové kvantifikátory Podpora ontologií, podpora uživatelského rozhodování…

19 Ferda - architektura

20 FrontEnd – praktická ukázka

21 pptPlex Section Divider
[Genetická data] pptPlex Section Divider The slides after this divider will be grouped into a section and given the label you type above. Feel free to move this slide to any position in the deck.

22 Genetická data Datový zdroj zkompilovaný na FEL ČVUT
Měření expresí genů pomocí DNA mikrosond Affymetrics 2 zkoumané typy buňek – hematopoetická a stromální (tvorba kostní dřeně) 3 zkoumané organismy Data měření obohacená o informace o pathways a fluxes

23 Pathway a flux Molekulární pathway – graf reprezentující síť molekulárních reakcí a interakcí Full-coupled-flux (FCF) – lineární podgraf pathway (všechny geny v něm mají expresi) Pracovní hypotéza: exprese genů nějakým způsobem souvisí s tvorbou buňek Úroveň genů je příliš malá granularita Úroveň pathways je příliš velká granularita Zkusme FCF!

24 Schéma genetických dat – původní podoba

25 Experimenty Virtuální atributy typu „Vysoká exprese genu X ve FCF“
Výsledek: pravidla ve tvaru [FluxID(a) ~ GeneLevel(b)] ~ CellType(c) Použité kvantifikátory: 100% konfidence Prohlížení experimentů

26 Další práce Odladění + škálování Správná diskretizace hodnot atributů
Sonda vs. chip


Stáhnout ppt "Multirelační GUHA, Ferda a genetická data"

Podobné prezentace


Reklamy Google