Bioinformatika Predikce genů, Fylogenetická analýza 11.4.2017 Bioinformatika Predikce genů, Fylogenetická analýza http://bio.img.cas.cz/PrfUK2002 Úvodní stránka Jiří Vondrášek Ústav organické chemie a biochemie vondrasek@uochb.cas.cz Jan Pačes Ústav molekulární genetiky hpaces@img.cas.cz
Rozdílné metody pro prokaryotní a eukaryotní geny. Predikce genů Založena na nestejném informačním obsahu v kódujících a nekódujících oblastech (kódující potenciál). Rozdílné metody pro prokaryotní a eukaryotní geny. Potřebujeme již existující data. Principy metod homologie (exofish, ..) statistické metody (codonuse, genscan, ..) neuronové sítě (genemark, ..)
Výběr kodónů Leucin Rhodobacter capsulatus antikodón počet % CUA 3 <1 CUC 119 16 CUG 458 60 CUU 157 20 UUA 0 0 UUG 27 3 Escherichia coli % 4 9 52 10 11 13
Predikce genů - statistický výpočet Pravděpodobnost výskytu znaku (řetězce) na pozici i: Pi = fi / S f Pravděpodobnost výskytu určitého úseku (okna): Pw = P1 . P2 .. Pw kde w je délka úseku = S logPi kde i = 1..w Pro daný úsek získáme šest hodnot, které normujeme, např: CPf = CPi / S CP kde i = 1..6
codonuse grafické rozhraní ke statistickému výpočtu používá dicodon preferences variabilní okno při prohledávání
CRITICA prokaryotické geny hledání RBS (ribosomal binding site, Shine-Dalgarnova sekvence) Princip: TBLASTP proti proteinové databázi a vytypování "jistě" kódujících sekvencí (většinou nekompletních genů). Vytvoření statistického modelu. Predikce genů. Vytvoření dalšího statistického modelu a predikce genů.
Pravděpodobnostní rozsah Genscan eukaryotické geny počítá různě první, prostřední a poslední exon promotory, terminátory, polyA různé statistické parametry pro různé GC www: http://genes.mit.edu/GENSCAN.html Pravděpodobnostní rozsah Exony Přesně Částečně Překryv Chybně 0.00 - 0.50 248 29.8% 27.8% 4.0% 38.3% 0.50 - 0.75 362 54.1% 26.2% 2.2% 17.4% 0.75 - 0.90 337 74.8% 16.0% 1.2% 8.0% 0.90 - 0.95 263 87.8% 6.1% 0.4% 5.7% 0.95 - 0.99 551 92.4% 3.4% 0.2% 0.99 - 1.00 917 97.7% 0.9% 0.0% 1.4%
Genscan - příklad Suboptimal exons with probability > 0.100 Exnum Type S .Begin ...End .Len Fr Ph B/Ac Do/T CodRg P.... Tscr.. ----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------ S.001 Init + 2937 3136 200 2 2 67 -22 154 0.301 0.72 S.002 Intr + 3239 3325 87 2 0 43 23 121 0.358 -0.73 S.003 Intr + 17250 17375 126 0 0 66 72 94 0.141 4.47 S.004 Init + 17311 17375 65 0 2 55 72 45 0.204 0.27 S.005 Intr - 24927 24728 200 2 2 12 91 115 0.146 2.27 S.006 Intr - 25129 25003 127 2 1 51 92 37 0.117 -0.78 S.007 Intr - 29973 29878 96 1 0 44 111 87 0.473 5.66 S.008 Intr - 32589 32418 172 2 1 19 70 151 0.336 5.42 S.009 Intr - 32563 32427 137 2 2 46 70 116 0.122 4.97 S.010 Intr - 32589 32427 163 2 1 19 70 135 0.114 3.86 S.011 Intr - 32857 32804 54 0 0 104 103 2 0.262 0.48 S.012 Init - 33114 33008 107 0 2 79 17 87 0.296 0.46 S.013 Init + 37062 37067 6 2 0 53 68 1 0.115 -4.38 S.014 Intr + 38237 38315 79 1 1 35 38 94 0.175 -2.69 S.015 Intr + 38270 38315 46 1 1 81 38 59 0.170 -2.74 S.016 Term + 38623 39059 437 2 2 55 49 266 0.139 13.86 S.017 Term + 38872 39059 188 2 2 62 49 243 0.212 14.47 Predicted peptide sequence(s): GENSCAN 1.0 Date run: 31-Oct-100 Time: 15:54:20 Sequence HERV17_004640 : 40714 bp : 37.79% C+G : Isochore 1 ( 0.00 - 43.00 C+G%) Parameter matrix: HumanIso.smat Predicted genes/exons: Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr.. ----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------ 1.01 Init + 1825 1853 29 0 2 86 71 45 0.579 1.72 1.02 Term + 3886 4075 190 1 1 85 44 198 0.941 11.04 1.03 PlyA + 4961 4966 6 1.05 2.00 Prom + 6668 6707 40 -4.65 2.01 Init + 17251 17375 125 0 2 45 72 80 0.590 1.81 2.02 Term + 20137 20329 193 1 1 85 43 196 0.990 10.71 2.03 PlyA + 20809 20814 6 1.05 3.08 PlyA - 21608 21603 6 -3.24 3.07 Term - 22315 21651 665 2 2 -17 55 522 0.952 31.44 3.06 Intr - 24268 22592 1677 2 0 81 94 2124 0.885 198.67 3.05 Intr - 24877 24728 150 2 0 34 91 101 0.783 4.21 3.04 Intr - 29976 29878 99 1 0 48 111 82 0.473 5.66 3.03 Intr - 31296 31170 127 0 1 89 82 101 0.997 8.93 3.02 Intr - 32563 32418 146 2 2 46 70 132 0.303 6.28 3.01 Init - 33114 33006 109 0 1 79 12 93 0.406 1.25 3.00 Prom - 35592 35553 40 -5.85 4.00 Prom + 36433 36472 40 -4.25 4.01 Init + 37863 37909 47 2 2 71 58 16 0.307 -2.89 4.02 Intr + 38032 38102 71 1 2 33 67 79 0.531 -1.79 4.03 Term + 38614 39059 446 2 2 66 49 276 0.577 15.91 4.04 PlyA + 39744 39749 6 1.05
Programy a www servery Rozcestník: http://www.hgc.ims.utokyo.ac.jp/ /~katsu/genefinding/programs.html Obecné a multi: http://dot.imgen.bcm.tmc.edu:9331/seq-search/gene-search.html http://bioweb.pasteur.fr/seqanal Jednotlivé programy: http://genes.mit.edu/GENSCAN.html http://www.tigr.org/tdb/glimmerm/glmr_form.html http://www.tigr.org/~salzberg/veil.html http://www.tigr.org/~salzberg/morgan.html http://kicy.genoscope.cns.fr/cgi-bin/exofish_kicy.cgi http://www.fruitfly.org/~martinr/doc/genie.html http://www.resp-sci.arizona.edu/genlab/genehunter.htm
Fylogenetická analýza Odhaduje evoluční souvislosti mezi daty Výchozí předpoklady: kumulace jednotlivých změn změny jsou náhodné přibližně stejná evoluční rychlost (molekulární čas)
Multile alignment
Evoluční stromy - terminologie nody (uzly) vnitřní vnější větve topologie stromu bifurkační strom aditivní strom ultrametrický strom kořen (root) stromu pravdivý (korektní) odvozený
Evoluční stromy - příklad ( polyA_26:0.042779, HERV17_27:0.049179 ):0.008643, polyA_410:0.045034 ):0.001912, polyA_20:0.039953, HERV17_15:0.034230 ):0.003074, HERV17_76:0.041414 ):0.002812 ):0.001440, polyA_30:0.042838, polyA_99:0.052972, HERV17_19:0.041888 ):0.003257 )
Evoluční stromy - příklad Evoluční strom pTR5 rodiny lidských endogenních retrovirů
Evoluční stromy - tvorba Algoritmické metody - rychlé, dávají jednoznačný výsledek, ale ne vždy nejlepší (lokální optimum). Optimalizační metody - pomalejší, ale naleznou globální optimum. Požadavky na vstupní sekvenční data: Alignment pouze homologních částí Vynechat gaps (Stromy založené na binárních datech, jako je restrikční analýza nebo unikatní inzerce a delece.)
Algoritmické (distanční) metody Metoda: shluková analýza Vstup: matice distancí (substituční model) UGPMA (Unweighted pair group method with arithmetic averages) WGPMA Neighbour-joining
Star decomposition method Neighbour-joining Star decomposition method
Jednoparametrická: Jukes-Cantor Dvouparametrická: Kimura Substituční modely Pro DNA: Jednoparametrická: Jukes-Cantor Dvouparametrická: Kimura Transice: purin - purin Transverze: pyrimidin - purin Pro proteiny: Substituční matice (Blosum etc)
Matice distancí 9 polyA_26 polyA_30 0.1102 polyA_20 0.1144 0.1027 polyA_99 0.1326 0.1100 0.1237 polyA_410 0.1089 0.1009 0.1067 0.1150 HERV17_27 0.1070 0.1263 0.1285 0.1504 0.1198 HERV17_76 0.0960 0.1024 0.0953 0.1221 0.1036 0.1188 HERV17_19 0.1045 0.0994 0.1019 0.1097 0.1059 0.1304 0.0975 HERV17_15 0.0980 0.0975 0.0841 0.1170 0.0977 0.1127 0.0860 0.0927
Metoda: hledání optimálního stromu Vstup: multiple alignment Optimalizační metody Metoda: hledání optimálního stromu Vstup: multiple alignment · parsimonie (parsimony) · maximální věrohodnost (maximum likehood - ML) · párové distanční metody (pairwise distance methods).
Parsimonie A C B D A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA
Parsimonie 1 1 A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA A C B D A B
Parsimonie 2 1 + 1 1 + 2 A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA A
Parsimonie 3 2 + 2 3 + 1 A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA 3 + 2 B D A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA A B C D A C D B
Parsimonie 4 4 + 1 4 + 2 A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA 5 + 2 B D A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA A B C D A C D B
Parsimonie 5 6 7 A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA 8 A C B D
Optimalizační metody Parsimonie nebere v úvahu délky větví a pravděpodobnosti jednotlivých přechodů Maximální věrohodnost vybírá stromy, kde nepravděpodobné události jsou na delších větvích
Bootstrap: výběr s opakováním Testování topologie Bootstrap: výběr s opakováním Jack Knife: výběr bez opakování, ale menší počet sekvencí
Kořen stromu
Kořen stromu
Programy http://geta.life.uiuc.edu/~nikos/LINKS/biocomputing_servers.html http://bioweb.pasteur.fr/seqanal/phylogeny/phylip-uk.html http://evolution.genetics.washington.edu/phylip/software.html
Pseudogeny: poměr synonymních a nesynonymních mutací Dodatky Pseudogeny: poměr synonymních a nesynonymních mutací