Hledání začátků exonů v DNA Klára Pešková, Michal Bída.

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

Projekt Informatika 2 ČVUT FSV obor Geodézie a Kartografie Bc. Jan Zajíček
Algoritmy a struktury meuropočítačů ASN – C2
Spektra zatížení Milan Růžička 1 Dynamická pevnost a životnost
Pracovní pomůcky pro 1.stupeň ZŠ
SMS brána Eurotel Jednoduché OCR pomocí neuronových sítí Marek Kukačka
Základy genetiky = ? X Proč jsme podobní rodičům?
Aplikace teorie grafů Základní pojmy teorie grafů
Face recognition Using PCA and EST Jakub Barták a Zdeněk BěhanMFF UK.
Automatická fonetická segmentace pomocí UNS Registr - 36 neuronových sítí MLNN (pro každou českou hlásku jedna UNS) Trénovací množina: databáze promluv.
ASN - cvičení 2 : Ukázky práce s NN-Toolboxem
SSC - cvičení 7 Aplikace programového systému Speech Laboratory - SL Postup: 1.Zkopírovat z adresy
SSC - cvičení 3 MATLAB - BPG algoritmus 1.Vytvořit tréninková data 2.Vytvořit objekt sítě 3.Natrénovat síť 4.Simulace Funkce pro učení: learngd … základní.
Jiří Gazárek, Martin Havlíček Analýza nezávislých komponent (ICA) v datech fMRI, a ICA necitlivá ke zpoždění.
Algoritmy a struktury neuropočítačů ASN - P1 Prof.Ing. Jana Tučková,CSc. Katedra teorie.
Dynamické rozvozní úlohy
DOK „Umělá inteligence“ v DOK (i jinde). NEURONOVÉ SÍTĚ.
Strojové učení I (Mitchell93) učicí množina příkladů hledáme generalizaci učicí množiny ověřujeme na testovací množině pokrytí, přesnost, F-kriterium.
Využití umělých neuronových sítí k urychlení evolučních algoritmů
Rozpoznávání tištěných znaků pomocí LVQ sítí Neuronové sítě 2006/2007 Jan Hroník, Pavel Krč.
Komprese barev Jakub Gemrot Ondřej Burkert. Popis problému Běžné obrázky mají 16,7 mil. barev Běžné obrázky mají 16,7 mil. barev Problém: Jak je rozumně.
FORMALIZACE PROJEKTU DO SÍŤOVÉHO GRAFU
Neuronové sítě Jakub Krátký.
Získávání informací Získání informací o reálném systému
Lenka Fialová Martina Procházková Ondřej Soukup Martin Valenta Cyril Vojáček 1.
Jazyk vývojových diagramů
Slide 1 A Free sample background from © 2003 By Default! Jiří Kůsa Testování propustnosti síťového firewallu.
Biometrické Bezpečnostní Systémy Filip Orság Technologie rozpoznání mluvčího.
Sčítání a odčítání zlomků
Systémy pro podporu managementu 2
ANALÝZA VÝSLEDKŮ LINEÁRNÍHO OPTIMALIZAČNÍHO MODELU
NEURONOVÉ SÍTĚ (c) Tralvex Yeap. All Rights Reserved.
Neuronové sítě na grafických akcelerátorech Ondřej Zicha, Jiří Formánek.
Projekt HUGO – milníky - I
Predikce hospitalizační mortality u akutního infarktu myokardu
36NAN Semestrální práce Predikce ceny akcií dle dosavadního vývoje.
Hopfieldova asociativní paměť. Topologie sítě 1 vrstva zároveň vstupní i výstupní mezi neurony existují všechny spoje (kromě smyček)
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Tvorba spojnicových grafů v aplikaci MS Excel
Realtime identifikace osob podle hlasu
Neuronové sítě Jiří Iša
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Jan Šaršon Milan Jaška 1Dobývání znalostí, MFF UK, 2008.
Genetika.
Rozpoznávání v řetězcích
Logika a umělá inteligence pro multi-agentní systémy Mobilní agent řízený neuronovou sítí.
AKD VII.
Opakování k písemné práci. Zadání (2b)Vysvětlete jak by šlo použít LSQ učení pro rozpoznání vzoru A od vzorů B a C. Jak by vypadaly bipolární vstupy a.
Fyziologie reprodukce a základy dědičnosti FSS 2009 zimní semestr D. Brančíková.
Algoritmy a struktury neuropočítačů ASN - P14 Hopfieldovy sítě Asociativní paměti rekonstrukce původních nezkreslených vzorů předkládají se neúplné nebo.
Dita Matesová, David Lehký, Zbyněk Keršner
Předzpracování nestrukturovaných dat pomocí jazyka Snowball , Brno Připravil: Bc. Pavel Řezníček.
CW – 05 TEORIE ROZHODOVACÍCH PROCESŮ Ústav technologie, mechanizace a řízení staveb Fakulta stavební VUT v Brně Ing. Václav Rada, CSc. Leden 2009.
Návrh a implementace algoritmů pro údržbu,
Martin Langhammer Antonín Wimberský. ÚVOD PŘEDPOKLADY Jednotný vstup Zadní SPZ Stejný úhel a vzdálenost záběru Pouze vodorovné záběry značek Obdélníkové.
Odhad ceny akcií Martin Dörfler, Jiří Marchalín. Původní metoda  odhad ceny akcií pomocí neuronové sítě v závislosti na minulých hodnotách kombinací.
Cenová mapa podnájmů v Praze Ondřej Kmoch Tomáš Kohan
Neuronové sítě. Vývoj NS 1943 – W. McCulloch, W. Pittse – první jednoduchý matematický model neuronu 1951 – M. Minsky - první neuropočítač Snark 1957.
Postup při empirickém kvantitativním výzkumu
Neuronové sítě.
Využití technik dataminingu při rozpoznávání znaků Marek Kukačka Květen 2006.
Základy genetiky = ? X Proč jsme podobní rodičům?
Metody strojového učení
EKOLOGICKÝ PŘÍRODOPIS Tématický celek: GENETIKA
Neuronové sítě.
NUKLEOVÉ KYSELINY Dusíkaté báze Cukry Fosfát guanin adenin tymin
NUKLEOVÉ KYSELINY Dusíkaté báze Cukry Fosfát guanin adenin tymin
Neuronové sítě.
Algoritmizace a datové struktury (14ASD)
Základy genetiky = ? X Proč jsme podobní rodičům?
Transkript prezentace:

Hledání začátků exonů v DNA Klára Pešková, Michal Bída

Úvod DNA a geny Exony Introny Problém hledání exonů v genech

Related Works Různé přístupy – Statistické metody – Dynamické programování – Neuronové sítě – Kombinace přístupů

Náš přístup Neuronová síť – Backpropagation – 60 vstupních neuronů, skrytá vrstva (15 neuronů), 1 výstupní – Algoritmus procházení vstupních dat, výstupní vektor – Více sítí – Kódování vstupů GCCATT A T G ATTTGC

Vstupy Získání a úprava vstupních dat (databáze Biomart Python) Použitá data - lidská DNA – učící data a testovací data - Chromozom 1 – „ostrá“ data - Chromozom 2 (geny ENSG , ENSG , ENSG ) Kódování bází: A (adenin): C (cytozin): G (guanin): T (tymin): CCGGAGCCGGCAGCTCCACTGGAGAGCAGTGCAGGCAGA GTGGAGCCTCCTGCTCTCCTGGACCAGCTGCAGACCCCC AACCCTGGTTTCTGTGCCATGTTGCGCTCTGACCGTCTC TGTTGCTTCTCTTCTGGTGTTGCTTCTCCTCCCTCCCAT TCTCTCTGCAACTCCCTGCGGGCCGCATCGCTTGCTTTC ACTGCCGTCTGGCTAGGACTCCCTTCTTCCTTCCTTCCC CGAGAAGGCCTCAATGTGGCGAGGAAGATGCTGGGGCCG GTAGGGCTGTGAGATCTTCTGGGGAGGCTAGCCGGGTGG GGCGGGAGCCTCTCAGCTGTCCAGATTCAGAACTGGAGC CCACTCCTCCTCCCTCTCGTTGCCTCAGCCTGCCCT

Učení MatLab Výběr algoritmu učení a přenosové funkce – logsig, traincgb ( Conjugate gradient backpropagation with Powell-Beale restarts ) Výběr trénovacích vzorů (celkem 4000 vzorů) – Pozitivní (začátky exonů ) – Negativní (polovina z exonů, polovina z intronů) Vliv skryté vrstvy

Zhodnocení Úspěšnost – jen na souboru s začátky exonů – jen na souboru s nezačátky exonů – Na ostrých datech – nízký počet exonů – Použití více sítí Výsledná data

Výsledky – testovací data špatně rozpoznané vzory: – začátky exonů FN: 361/2000 (18 %) – nezačátky FP: 153/2000 (7,7 %) – radnom FP: 34/2000 (1,7 %)

Výsledky - ostrá data Název genu délka genu (báze) Nalezené začátky / celkem Falešné hityFalse positive / False negative ENSG / 5931,8 % 20 % ENSG / ,4 % 60 % ENSG / ,2 % 27,3 %

Graf - gen ENSG

Závěr Minimalizovat počet falešných poplachů Stejným způsobem by se daly hledat konce exonů Použít kombinace přístupů a neuronovou síť jako součást