Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Multirelační GUHA, Ferda a genetická data Martin Ralbovský KIZI FIS VŠE.

Podobné prezentace


Prezentace na téma: "Multirelační GUHA, Ferda a genetická data Martin Ralbovský KIZI FIS VŠE."— Transkript prezentace:

1 Multirelační GUHA, Ferda a genetická data Martin Ralbovský KIZI FIS VŠE

2 pptPlex Section Divider [Úvod do metody GUHA] The slides after this divider will be grouped into a section and given the label you type above. Feel free to move this slide to any position in the deck.

3 Metoda GUHA • Původní česká metoda explorační analýzy dat • Založena na – logice (observační kalkuly) – statistice (testování hypotéz) • Téměř 40 let vývoje

4 Metoda GUHA - princip

5 Patterny, hypotézy, verifikace • Pattern – jedna vygenerovaná formulka observačního kalkulu • Prime pattern – pattern, který je pravdivý v datech a nevyplývá z jiného jednoduššího pravdivého patternu • Hypotéza = pattern • Verifikace = ověření jednoho patternu

6 Příklad procedury – 4FT • Hledá asociační pravidla ve tvaru A ~ B kde A a B jsou Booleovské atributy a ~ je 4ft- kvantifikátor • Příklad pravidla: District(SouthEast) ~ Status(Good)

7 pptPlex Section Divider [Multirelační GUHA] The slides after this divider will be grouped into a section and given the label you type above. Feel free to move this slide to any position in the deck.

8 Proč multirelační? • Původní metoda byla omezena na minování pouze nad jednou tabulkou • Jedna tabulka – tvrzení o vlastnostech jedné entity • Více tabulek – vztahy mezi entitami Motivační příklad: • Údaje o klientech v jedné tabulce • Údaje o transakcích klientů v druhé tabulce

9 (Multi)relační metody - ILP • ILP – inductive logic programming vhodné pro HODNĚ relací, z pozitivních a negativních příkladů (+ background knowledge) inferuje tvrzení • ILP propozicionalizace z vícero tabulek sestrojí jednu, nad kterou se dají spustit jiné algoritmy výsledné atributy jsou konjunkce (negovaných) literálů predikátové logiky

10 (Multi)relační metody - další WARMR • Spojení ILP a asociačních pravidel • Nejdříve provede propozicionalizaci a potom hledá asociační pravidla RELAGGS • Vypočítá agregace záznamů přímo v databázi • Poté hledá asociační pravidla

11 Multirelační GUHA - princip • Rozdělení úlohy na hlavní a vedlejší • Master a detail tabulka - hvězdicové schéma • Přidávání patternů z vedlejší úlohy do hlavní – virtuální atributy Příklad: • Detail tabulka – klient často platící kartou ClientID ~ Payment(CreditCard) • Master tabulka District(SoutEast)&ClientPayingByCreditCard ~ Status(Good)

12 Multirelační GUHA – detaily • Pro každého klienta se vyberou pouze jemu odpovídající řádky v tabulce transakcí • Pro každého klienta je různá hodnota virtuálního atributu (prozatím 0, 1) • Co odpovídá virtuálnímu atributu – hypotéza nebo pattern?

13 Multirelační GUHA – omezení • Problém s počtem virtuálních atributů v hlavní tabulce • Hvězdicové schéma není teoretickým, ale praktickým omezením • Příklad

14 Multirelační GUHA vs. Ostatní metody • Ze všech metod umožňuje GUHA největší expresivitu • Tato je vykoupena omezením na malý počet relací • Hodí se na úlohy s málo tabulkami, ideálně velká master a malá detail.

15 Multirelační GUHA - implementace • Konec 90. let – implementace v rámci systému LISp-Miner – nepoužívala se • Disertace T. Karbana, Rel-Miner – nedokončeno • Diplomová práce A. Kuzmina, Ferda – implementace multirelačních 4FT a SD4FT – Neúspěšné pokusy na Barboře – Slibné pokusy na genetických datech

16 pptPlex Section Divider [Ferda] The slides after this divider will be grouped into a section and given the label you type above. Feel free to move this slide to any position in the deck.

17 Ferda - historie • Poslední z nástrojů implementující metodu GUHA • Původně projekt MFF UK, nyní vyvíjen na KIZI FIS VŠE • Založen 2003/2004 • Obhájen 2006 • Dále 6 diplomových a 1 bakalářská práce

18 Devatero řemesel… • Vysoce modulární systém: – Používá se middleware pro komunikaci – Moduly mohou být napsány v 5 různých jazycích – Moduly mohou komunikovat libovolně po síti • Vlastní částečně rekurzivní programovací jazyk • 7 relačních GUHA procedur, 2 multirelační procedury, nové kvantifikátory • Podpora ontologií, podpora uživatelského rozhodování…

19 Ferda - architektura

20 FrontEnd – praktická ukázka

21 pptPlex Section Divider [Genetická data] The slides after this divider will be grouped into a section and given the label you type above. Feel free to move this slide to any position in the deck.

22 Genetická data • Datový zdroj zkompilovaný na FEL ČVUT • Měření expresí genů pomocí DNA mikrosond Affymetrics • 2 zkoumané typy buňek – hematopoetická a stromální (tvorba kostní dřeně) • 3 zkoumané organismy • Data měření obohacená o informace o pathways a fluxes

23 Pathway a flux • Molekulární pathway – graf reprezentující síť molekulárních reakcí a interakcí • Full-coupled-flux (FCF) – lineární podgraf pathway (všechny geny v něm mají expresi) Pracovní hypotéza: exprese genů nějakým způsobem souvisí s tvorbou buňek • Úroveň genů je příliš malá granularita • Úroveň pathways je příliš velká granularita • Zkusme FCF!

24 Schéma genetických dat – původní podoba

25 Experimenty • Virtuální atributy typu „Vysoká exprese genu X ve FCF“ • Výsledek: pravidla ve tvaru [FluxID(a) ~ GeneLevel(b)] ~ CellType(c) Použité kvantifikátory: 100% konfidence • Prohlížení experimentů

26 Další práce • Odladění + škálování • Správná diskretizace hodnot atributů • Sonda vs. chip


Stáhnout ppt "Multirelační GUHA, Ferda a genetická data Martin Ralbovský KIZI FIS VŠE."

Podobné prezentace


Reklamy Google