Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
Hledání začátků exonů v DNA Klára Pešková, Michal Bída
2
Úvod DNA a geny Exony Introny Problém hledání exonů v genech
3
Related Works Různé přístupy – Statistické metody – Dynamické programování – Neuronové sítě – Kombinace přístupů
4
Náš přístup Neuronová síť – Backpropagation – 60 vstupních neuronů, skrytá vrstva (15 neuronů), 1 výstupní – Algoritmus procházení vstupních dat, výstupní vektor – Více sítí – Kódování vstupů GCCATT A T...... G ATTTGC
5
Vstupy Získání a úprava vstupních dat (databáze Biomart www.biomart.org, Python) www.biomart.org Použitá data - lidská DNA – učící data a testovací data - Chromozom 1 – „ostrá“ data - Chromozom 2 (geny ENSG00000135924, ENSG00000119777, ENSG00000151353) Kódování bází: A (adenin): 1 0 0 0 C (cytozin): 0 1 0 0 G (guanin): 0 0 1 0 T (tymin): 0 0 0 1 CCGGAGCCGGCAGCTCCACTGGAGAGCAGTGCAGGCAGA GTGGAGCCTCCTGCTCTCCTGGACCAGCTGCAGACCCCC AACCCTGGTTTCTGTGCCATGTTGCGCTCTGACCGTCTC TGTTGCTTCTCTTCTGGTGTTGCTTCTCCTCCCTCCCAT TCTCTCTGCAACTCCCTGCGGGCCGCATCGCTTGCTTTC ACTGCCGTCTGGCTAGGACTCCCTTCTTCCTTCCTTCCC CGAGAAGGCCTCAATGTGGCGAGGAAGATGCTGGGGCCG GTAGGGCTGTGAGATCTTCTGGGGAGGCTAGCCGGGTGG GGCGGGAGCCTCTCAGCTGTCCAGATTCAGAACTGGAGC CCACTCCTCCTCCCTCTCGTTGCCTCAGCCTGCCCT
6
Učení MatLab Výběr algoritmu učení a přenosové funkce – logsig, traincgb ( Conjugate gradient backpropagation with Powell-Beale restarts ) Výběr trénovacích vzorů (celkem 4000 vzorů) – Pozitivní (začátky exonů - 2000) – Negativní (polovina z exonů, polovina z intronů) Vliv skryté vrstvy
7
Zhodnocení Úspěšnost – jen na souboru s začátky exonů – jen na souboru s nezačátky exonů – Na ostrých datech – nízký počet exonů – Použití více sítí Výsledná data
8
Výsledky – testovací data špatně rozpoznané vzory: – začátky exonů FN: 361/2000 (18 %) – nezačátky FP: 153/2000 (7,7 %) – radnom FP: 34/2000 (1,7 %)
9
Výsledky - ostrá data Název genu délka genu (báze) Nalezené začátky / celkem Falešné hityFalse positive / False negative ENSG00000151353 5218 4 / 5931,8 % 20 % ENSG00000135924 8705 14 / 352062,4 % 60 % ENSG00000119777 7531 8 / 111632,2 % 27,3 %
10
Graf - gen ENSG00000119777
11
Závěr Minimalizovat počet falešných poplachů Stejným způsobem by se daly hledat konce exonů Použít kombinace přístupů a neuronovou síť jako součást
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.