Hledání začátků exonů v DNA Klára Pešková, Michal Bída
Úvod DNA a geny Exony Introny Problém hledání exonů v genech
Related Works Různé přístupy – Statistické metody – Dynamické programování – Neuronové sítě – Kombinace přístupů
Náš přístup Neuronová síť – Backpropagation – 60 vstupních neuronů, skrytá vrstva (15 neuronů), 1 výstupní – Algoritmus procházení vstupních dat, výstupní vektor – Více sítí – Kódování vstupů GCCATT A T G ATTTGC
Vstupy Získání a úprava vstupních dat (databáze Biomart Python) Použitá data - lidská DNA – učící data a testovací data - Chromozom 1 – „ostrá“ data - Chromozom 2 (geny ENSG , ENSG , ENSG ) Kódování bází: A (adenin): C (cytozin): G (guanin): T (tymin): CCGGAGCCGGCAGCTCCACTGGAGAGCAGTGCAGGCAGA GTGGAGCCTCCTGCTCTCCTGGACCAGCTGCAGACCCCC AACCCTGGTTTCTGTGCCATGTTGCGCTCTGACCGTCTC TGTTGCTTCTCTTCTGGTGTTGCTTCTCCTCCCTCCCAT TCTCTCTGCAACTCCCTGCGGGCCGCATCGCTTGCTTTC ACTGCCGTCTGGCTAGGACTCCCTTCTTCCTTCCTTCCC CGAGAAGGCCTCAATGTGGCGAGGAAGATGCTGGGGCCG GTAGGGCTGTGAGATCTTCTGGGGAGGCTAGCCGGGTGG GGCGGGAGCCTCTCAGCTGTCCAGATTCAGAACTGGAGC CCACTCCTCCTCCCTCTCGTTGCCTCAGCCTGCCCT
Učení MatLab Výběr algoritmu učení a přenosové funkce – logsig, traincgb ( Conjugate gradient backpropagation with Powell-Beale restarts ) Výběr trénovacích vzorů (celkem 4000 vzorů) – Pozitivní (začátky exonů ) – Negativní (polovina z exonů, polovina z intronů) Vliv skryté vrstvy
Zhodnocení Úspěšnost – jen na souboru s začátky exonů – jen na souboru s nezačátky exonů – Na ostrých datech – nízký počet exonů – Použití více sítí Výsledná data
Výsledky – testovací data špatně rozpoznané vzory: – začátky exonů FN: 361/2000 (18 %) – nezačátky FP: 153/2000 (7,7 %) – radnom FP: 34/2000 (1,7 %)
Výsledky - ostrá data Název genu délka genu (báze) Nalezené začátky / celkem Falešné hityFalse positive / False negative ENSG / 5931,8 % 20 % ENSG / ,4 % 60 % ENSG / ,2 % 27,3 %
Graf - gen ENSG
Závěr Minimalizovat počet falešných poplachů Stejným způsobem by se daly hledat konce exonů Použít kombinace přístupů a neuronovou síť jako součást