Multirelační GUHA, Ferda a genetická data

Slides:



Advertisements
Podobné prezentace
DOTAZOVACÍ JAZYKY slajdy přednášce DBI006
Advertisements

J. Pokorný 1 DOTAZOVACÍ JAZYKY slajdy přednášce DBI006 J. Pokorný MFF UK
J. Pokorný 1 DOTAZOVACÍ JAZYKY slajdy přednášce DBI006 J. Pokorný MFF UK
4IZ210 – Zpracování informací a znalostí Ing. D. Pejčoch
Ing. Jan Mittner MySQL Workbench 2. Základy práce s databází 3. Subversion 2.
Analýza kvantitativních dat I./II. Typy dat Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 26/2/2012 UK FHS Historická sociologie, Řízení a supervize.
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Aplikační a programové vybavení
Databáze.
Lekce 7 Metoda molekulární dynamiky I Úvod KFY/PMFCHLekce 7 – Metoda molekulární dynamiky Osnova 1.Princip metody 2.Ingredience 3.Počáteční podmínky 4.Časová.
Business intelligence
Vestavný modul pro počítačové vidění využívající hradlové pole Diplomová práce, Bc. Jan Šváb ČVUT Praha, Fakulta Elektrotechnická.
Koncepce rozvoje a řízení vědy a výzkumu
Organon Interaktivní webová aplikace pro výuku logiky
Quo vadis, KEG? Zamyšlení nad vznikem a budoucností “Knowledge Engineering Group”na VŠE Praha V. Svátek, září 2003.
Induktivní logické programování
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
PRÉCIS OD NESTRUKTUROVANÝCH KLÍČOVÝCH SLOV JAKO DOTAZŮ K STRUKTUROVANÝM DATABÁZÍM JAKO ODPOVĚDÍM Martin Lacina.
Zpracování informací a znalostí Zadání úkolu č. 4 – DZD
Hana Kotinová Struktura a cíl práce Metody předzpracování dat Systémy předzpracování dat Historie vývoje DPT Jak program pracuje Budoucnost.
Vyhledávání dat podle určených kritérií Máte za úkol vytvořit databázi klientů v bance s jejich osobními údaji, čísly účtů a konečnými zůstatky na těchto.
Školení správců II. Petr Pinkas RNDr. Vít Ochozka.
Sociologický výzkum.
Řízení a supervize v sociálních a zdravotnických organizacích
A weak fuzzy description logic with aggregation Peter Vojtáš na Pracovním semináři pořádaném Knowledge Engineering Group Knowledge Engineering.
1IT D OTAZOVACÍ JAZYKY V RELAČNÍCH DATABÁZÍCH Ing. Jiří Šilhán.
Databázové systémy Architektury DBS.
Databázové systémy Přednáška č. 7 Uživatelské rozhraní.
Informatika pro ekonomy II přednáška 10
Databázové systémy Přednáška č. 6 Proces návrhu databáze.
Predikátová logika.
Simulační modely a programové vybavení. Vývoj simulačních programů  Původně pouze strojový kód –Příliš dlouhé, náročné na programátora, obtížné hledání.
Databáze.
1 Kognitivní inspirace třídění na základě závislostí atributů Jan Burian Eurfomise centrum – Kardio, Ústav informatiky AV ČR Článek je dostupný na WWW:
Barbora Kušová Obor: Geoinformatika HGF, VŠB-TU Ostrava 2002/2003
Dokumentace informačního systému
Copyright (C) 1999 VEMA počítače a projektování, spol. s r.o.
uložené procedury (stored procedures) triggery, sekvence, pohledy, funkce, parametrické dotazy (prepared statements) komplexní agregace a SQL dotazy jiné.
Příležitost Jak jsme psali player pro ZOH Výsledek Lekce Player Dalibor Kačmář Platform Strategy Advisor Microsoft Lev Holý Vedoucí projektů LIVEBOX.
Databázové modelování
Algoritmus a jeho vlastnosti
Databázové systémy Informatika pro ekonomy, př. 18.
Využití ontologií při dobývání znalostí z databází Hana Češpivová.
Automatizovaná podpora výběru nástroje pro dobývání znalostí Jakub Štochl.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Infrastruktura pro dotazování nad sémantickými daty Jiří Dokulil, Jakub Yaghob, Filip Zavoral Katedra softwarového inženýrství, MFF UK Praha
Foreign key mapping Jakub Chalupa Naim Ashhab ČVUT FEL
14. června 2004Michal Ševčenko Architektura softwarového systému DYNAST Michal Ševčenko VIC ČVUT.
Malá násobilka - procvičování
Projekt LISp-Miner Milan Šimůnek. Milan Šimůnek – Projekt LISp-Miner2 Obsah Význam databází a uchovávaných informací Proces dobývání znalostí z databází.
11/2003Přednáška č. 41 Regulace výpočtu modelu Předmět: Modelování v řízení MR 11 (Počítačová podpora) Obor C, Modul M8 ZS, 2003, K126 EKO Předn./Cvič.:
P114_21 P114 Klasické metody modelování RDM, ERAM 2.
Databázové systémy Úvod, Základní pojmy. Úvod S rozvojem lidského poznání roste prudce množství informací. Jsou kladeny vysoké požadavky na ukládání,
Úvod do programování Vyučující: Mgr. Vítězslav Jersák
Postup při empirickém kvantitativním výzkumu
Aplikovaná statistika 2.
YOUR LOGO C# Entity Framework. YOUR LOGO  Entity framework nám poskytuje: -Vytváří objektový model na základě databázového schématu -Mapuje tabulky,
Význam relací Typy relací Vytvoření relace Nastavení relace Podtypy relace Referenční integrita.
Randstad Java Academy vše o kurzu Gabriela Hrbáčková Director Randstad Professionals.
Databáze MS ACCESS 2010.
Úvod do databázových systémů
Dobývání znalostí z databází znalosti
Databázové systémy přednáška 13 – Analýza a reporting
Informatika pro ekonomy přednáška 8
Objektovo – relačné mapovanie
METODOLOGIE PROJEKTOVÁNÍ
Ústav lékařské informatiky, 2. LF UK
Databázové systémy UIN010
Analýza informačního systému
Testování hypotéz - pojmy
Transkript prezentace:

Multirelační GUHA, Ferda a genetická data Martin Ralbovský KIZI FIS VŠE

pptPlex Section Divider [Úvod do metody GUHA] pptPlex Section Divider The slides after this divider will be grouped into a section and given the label you type above. Feel free to move this slide to any position in the deck.

Metoda GUHA Původní česká metoda explorační analýzy dat Založena na logice (observační kalkuly) statistice (testování hypotéz) Téměř 40 let vývoje

Metoda GUHA - princip

Patterny, hypotézy, verifikace Pattern – jedna vygenerovaná formulka observačního kalkulu Prime pattern – pattern, který je pravdivý v datech a nevyplývá z jiného jednoduššího pravdivého patternu Hypotéza = pattern Verifikace = ověření jednoho patternu

Příklad procedury – 4FT Hledá asociační pravidla ve tvaru A ~ B kde A a B jsou Booleovské atributy a ~ je 4ft-kvantifikátor Příklad pravidla: District(SouthEast) ~ Status(Good)

pptPlex Section Divider [Multirelační GUHA] pptPlex Section Divider The slides after this divider will be grouped into a section and given the label you type above. Feel free to move this slide to any position in the deck.

Proč multirelační? Původní metoda byla omezena na minování pouze nad jednou tabulkou Jedna tabulka – tvrzení o vlastnostech jedné entity Více tabulek – vztahy mezi entitami Motivační příklad: Údaje o klientech v jedné tabulce Údaje o transakcích klientů v druhé tabulce

(Multi)relační metody - ILP ILP – inductive logic programming vhodné pro HODNĚ relací, z pozitivních a negativních příkladů (+ background knowledge) inferuje tvrzení ILP propozicionalizace z vícero tabulek sestrojí jednu, nad kterou se dají spustit jiné algoritmy výsledné atributy jsou konjunkce (negovaných) literálů predikátové logiky

(Multi)relační metody - další WARMR Spojení ILP a asociačních pravidel Nejdříve provede propozicionalizaci a potom hledá asociační pravidla RELAGGS Vypočítá agregace záznamů přímo v databázi Poté hledá asociační pravidla

Multirelační GUHA - princip Rozdělení úlohy na hlavní a vedlejší Master a detail tabulka - hvězdicové schéma Přidávání patternů z vedlejší úlohy do hlavní – virtuální atributy Příklad: Detail tabulka – klient často platící kartou ClientID ~ Payment(CreditCard) Master tabulka District(SoutEast)&ClientPayingByCreditCard ~ Status(Good)

Multirelační GUHA – detaily Pro každého klienta se vyberou pouze jemu odpovídající řádky v tabulce transakcí Pro každého klienta je různá hodnota virtuálního atributu (prozatím 0, 1) Co odpovídá virtuálnímu atributu – hypotéza nebo pattern?

Multirelační GUHA – omezení Problém s počtem virtuálních atributů v hlavní tabulce Hvězdicové schéma není teoretickým, ale praktickým omezením Příklad

Multirelační GUHA vs. Ostatní metody Ze všech metod umožňuje GUHA největší expresivitu Tato je vykoupena omezením na malý počet relací Hodí se na úlohy s málo tabulkami, ideálně velká master a malá detail.

Multirelační GUHA - implementace Konec 90. let – implementace v rámci systému LISp-Miner – nepoužívala se Disertace T. Karbana, Rel-Miner – nedokončeno Diplomová práce A. Kuzmina, Ferda – implementace multirelačních 4FT a SD4FT Neúspěšné pokusy na Barboře Slibné pokusy na genetických datech

pptPlex Section Divider [Ferda] pptPlex Section Divider The slides after this divider will be grouped into a section and given the label you type above. Feel free to move this slide to any position in the deck.

Ferda - historie Poslední z nástrojů implementující metodu GUHA Původně projekt MFF UK, nyní vyvíjen na KIZI FIS VŠE Založen 2003/2004 Obhájen 2006 Dále 6 diplomových a 1 bakalářská práce

Devatero řemesel… Vysoce modulární systém: Používá se middleware pro komunikaci Moduly mohou být napsány v 5 různých jazycích Moduly mohou komunikovat libovolně po síti Vlastní částečně rekurzivní programovací jazyk 7 relačních GUHA procedur, 2 multirelační procedury, nové kvantifikátory Podpora ontologií, podpora uživatelského rozhodování…

Ferda - architektura

FrontEnd – praktická ukázka

pptPlex Section Divider [Genetická data] pptPlex Section Divider The slides after this divider will be grouped into a section and given the label you type above. Feel free to move this slide to any position in the deck.

Genetická data Datový zdroj zkompilovaný na FEL ČVUT Měření expresí genů pomocí DNA mikrosond Affymetrics 2 zkoumané typy buňek – hematopoetická a stromální (tvorba kostní dřeně) 3 zkoumané organismy Data měření obohacená o informace o pathways a fluxes

Pathway a flux Molekulární pathway – graf reprezentující síť molekulárních reakcí a interakcí Full-coupled-flux (FCF) – lineární podgraf pathway (všechny geny v něm mají expresi) Pracovní hypotéza: exprese genů nějakým způsobem souvisí s tvorbou buňek Úroveň genů je příliš malá granularita Úroveň pathways je příliš velká granularita Zkusme FCF!

Schéma genetických dat – původní podoba

Experimenty Virtuální atributy typu „Vysoká exprese genu X ve FCF“ Výsledek: pravidla ve tvaru [FluxID(a) ~ GeneLevel(b)] ~ CellType(c) Použité kvantifikátory: 100% konfidence Prohlížení experimentů

Další práce Odladění + škálování Správná diskretizace hodnot atributů Sonda vs. chip