Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Jan Pačes Ústav molekulární genetiky Jiří Vondrášek Ústav organické chemie a biochemie Bioinformatika Predikce.

Podobné prezentace


Prezentace na téma: "Jan Pačes Ústav molekulární genetiky Jiří Vondrášek Ústav organické chemie a biochemie Bioinformatika Predikce."— Transkript prezentace:

1 Jan Pačes Ústav molekulární genetiky hpaces@img.cas.cz Jiří Vondrášek Ústav organické chemie a biochemie vondrasek@uochb.cas.cz Bioinformatika Predikce genů, Fylogenetická analýza http://bio.img.cas.cz/PrfUK2002

2 Predikce genů Založena na nestejném informačním obsahu v kódujících a nekódujících oblastech (kódující potenciál). Rozdílné metody pro prokaryotní a eukaryotní geny. Potřebujeme již existující data. Principy metod homologie (exofish,..) statistické metody (codonuse, genscan,..) neuronové sítě (genemark,..)

3 Výběr kodónů Leucin Rhodobacter capsulatus antikodónpočet % CUA 3 <1 CUC 119 16 CUG 458 60 CUU 157 20 UUA 0 0 UUG 27 3 Escherichia coli % 4 9 52 10 11 13

4 Predikce genů - statistický výpočet Pravděpodobnost výskytu znaku (řetězce) na pozici i: P i = f i /  f Pravděpodobnost výskytu určitého úseku (okna): P w = P 1. P 2.. P w kde w je délka úseku =  logP i kde i = 1..w Pro daný úsek získáme šest hodnot, které normujeme, např: CP f = CP i /  CP kde i = 1..6

5 codonuse grafické rozhraní ke statistickému výpočtu používá dicodon preferences variabilní okno při prohledávání

6 CRITICA prokaryotické geny hledání RBS (ribosomal binding site, Shine-Dalgarnova sekvence) Princip: TBLASTP proti proteinové databázi a vytypování "jistě" kódujících sekvencí (většinou nekompletních genů). Vytvoření statistického modelu. Predikce genů. Vytvoření dalšího statistického modelu a predikce genů.

7 Genscan eukaryotické geny počítá různě první, prostřední a poslední exon promotory, terminátory, polyA různé statistické parametry pro různé GC www: http://genes.mit.edu/GENSCAN.html Pravděpodobnostní rozsah ExonyPřesněČástečněPřekryvChybně 0.00 - 0.5024829.8%27.8%4.0%38.3% 0.50 - 0.7536254.1%26.2%2.2%17.4% 0.75 - 0.9033774.8%16.0%1.2%8.0% 0.90 - 0.9526387.8%6.1%0.4%5.7% 0.95 - 0.9955192.4%3.4%0.2%4.0% 0.99 - 1.0091797.7%0.9%0.0%1.4%

8 GENSCAN 1.0 Date run: 31-Oct-100 Time: 15:54:20 Sequence HERV17_004640 : 40714 bp : 37.79% C+G : Isochore 1 ( 0.00 - 43.00 C+G%) Parameter matrix: HumanIso.smat Predicted genes/exons: Gn.Ex Type S.Begin...End.Len Fr Ph I/Ac Do/T CodRg P.... Tscr.. ----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------ 1.01 Init + 1825 1853 29 0 2 86 71 45 0.579 1.72 1.02 Term + 3886 4075 190 1 1 85 44 198 0.941 11.04 1.03 PlyA + 4961 4966 6 1.05 2.00 Prom + 6668 6707 40 -4.65 2.01 Init + 17251 17375 125 0 2 45 72 80 0.590 1.81 2.02 Term + 20137 20329 193 1 1 85 43 196 0.990 10.71 2.03 PlyA + 20809 20814 6 1.05 3.08 PlyA - 21608 21603 6 -3.24 3.07 Term - 22315 21651 665 2 2 -17 55 522 0.952 31.44 3.06 Intr - 24268 22592 1677 2 0 81 94 2124 0.885 198.67 3.05 Intr - 24877 24728 150 2 0 34 91 101 0.783 4.21 3.04 Intr - 29976 29878 99 1 0 48 111 82 0.473 5.66 3.03 Intr - 31296 31170 127 0 1 89 82 101 0.997 8.93 3.02 Intr - 32563 32418 146 2 2 46 70 132 0.303 6.28 3.01 Init - 33114 33006 109 0 1 79 12 93 0.406 1.25 3.00 Prom - 35592 35553 40 -5.85 4.00 Prom + 36433 36472 40 -4.25 4.01 Init + 37863 37909 47 2 2 71 58 16 0.307 -2.89 4.02 Intr + 38032 38102 71 1 2 33 67 79 0.531 -1.79 4.03 Term + 38614 39059 446 2 2 66 49 276 0.577 15.91 4.04 PlyA + 39744 39749 6 1.05 Genscan - příklad Suboptimal exons with probability > 0.100 Exnum Type S.Begin...End.Len Fr Ph B/Ac Do/T CodRg P.... Tscr.. ----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------ S.001 Init + 2937 3136 200 2 2 67 -22 154 0.301 0.72 S.002 Intr + 3239 3325 87 2 0 43 23 121 0.358 -0.73 S.003 Intr + 17250 17375 126 0 0 66 72 94 0.141 4.47 S.004 Init + 17311 17375 65 0 2 55 72 45 0.204 0.27 S.005 Intr - 24927 24728 200 2 2 12 91 115 0.146 2.27 S.006 Intr - 25129 25003 127 2 1 51 92 37 0.117 -0.78 S.007 Intr - 29973 29878 96 1 0 44 111 87 0.473 5.66 S.008 Intr - 32589 32418 172 2 1 19 70 151 0.336 5.42 S.009 Intr - 32563 32427 137 2 2 46 70 116 0.122 4.97 S.010 Intr - 32589 32427 163 2 1 19 70 135 0.114 3.86 S.011 Intr - 32857 32804 54 0 0 104 103 2 0.262 0.48 S.012 Init - 33114 33008 107 0 2 79 17 87 0.296 0.46 S.013 Init + 37062 37067 6 2 0 53 68 1 0.115 -4.38 S.014 Intr + 38237 38315 79 1 1 35 38 94 0.175 -2.69 S.015 Intr + 38270 38315 46 1 1 81 38 59 0.170 -2.74 S.016 Term + 38623 39059 437 2 2 55 49 266 0.139 13.86 S.017 Term + 38872 39059 188 2 2 62 49 243 0.212 14.47 Predicted peptide sequence(s):

9 Programy a www servery Rozcestník: http://www.hgc.ims.utokyo.ac.jp/ /~katsu/genefinding/programs.html Obecné a multi: http://dot.imgen.bcm.tmc.edu:9331/seq-search/gene-search.html http://bioweb.pasteur.fr/seqanal Jednotlivé programy: http://genes.mit.edu/GENSCAN.html http://www.tigr.org/tdb/glimmerm/glmr_form.html http://www.tigr.org/~salzberg/veil.html http://www.tigr.org/~salzberg/morgan.html http://kicy.genoscope.cns.fr/cgi-bin/exofish_kicy.cgi http://www.fruitfly.org/~martinr/doc/genie.html http://www.resp-sci.arizona.edu/genlab/genehunter.htm

10 Fylogenetická analýza Odhaduje evoluční souvislosti mezi daty Výchozí předpoklady: kumulace jednotlivých změn změny jsou náhodné přibližně stejná evoluční rychlost (molekulární čas)

11 Multile alignment

12 Evoluční stromy - terminologie nody (uzly) vnitřní vnější větve topologie stromu bifurkační strom aditivní strom ultrametrický strom kořen (root) stromu pravdivý (korektní) odvozený

13 ( polyA_26:0.042779, HERV17_27:0.049179 ):0.008643, polyA_410:0.045034 ):0.001912, ( polyA_20:0.039953, HERV17_15:0.034230 ):0.003074, HERV17_76:0.041414 ):0.002812 ):0.001440, polyA_30:0.042838, ( polyA_99:0.052972, HERV17_19:0.041888 ):0.003257 ) Evoluční stromy - příklad

14 Evoluční strom pTR5 rodiny lidských endogenních retrovirů

15 Evoluční stromy - tvorba Algoritmické metody - rychlé, dávají jednoznačný výsledek, ale ne vždy nejlepší (lokální optimum). Optimalizační metody - pomalejší, ale naleznou globální optimum. Požadavky na vstupní sekvenční data: Alignment pouze homologních částí Vynechat gaps (Stromy založené na binárních datech, jako je restrikční analýza nebo unikatní inzerce a delece.)

16 Algoritmické (distanční) metody Metoda: shluková analýza Vstup: matice distancí (substituční model) UGPMA (Unweighted pair group method with arithmetic averages) WGPMA Neighbour-joining

17 Star decomposition method

18 Substituční modely Pro DNA: Jednoparametrická: Jukes-Cantor Dvouparametrická: Kimura Transice: purin - purin Transverze: pyrimidin - purin Pro proteiny: Substituční matice (Blosum etc)

19 9 polyA_26 polyA_30 0.1102 polyA_20 0.1144 0.1027 polyA_99 0.1326 0.1100 0.1237 polyA_410 0.1089 0.1009 0.1067 0.1150 HERV17_27 0.1070 0.1263 0.1285 0.1504 0.1198 HERV17_76 0.0960 0.1024 0.0953 0.1221 0.1036 0.1188 HERV17_19 0.1045 0.0994 0.1019 0.1097 0.1059 0.1304 0.0975 HERV17_15 0.0980 0.0975 0.0841 0.1170 0.0977 0.1127 0.0860 0.0927 Matice distancí

20 Optimalizační metody Metoda: hledání optimálního stromu Vstup: multiple alignment  parsimonie (parsimony)  maximální věrohodnost (maximum likehood - ML)  párové distanční metody (pairwise distance methods).

21 Parsimonie A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA AC BD AB CD AC DB

22 Parsimonie 1 AC BD A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA AB CD AC DB 111111

23 Parsimonie 2 AC BD A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA AB CD AC DB 1 + 1 1 + 2

24 Parsimonie 3 AC BD A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA AB CD AC DB 2 + 2 3 + 1 3 + 2

25 Parsimonie 4 AC BD A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA AB CD AC DB 4 + 1 4 + 2 5 + 2

26 Parsimonie 5 AC BD A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA AB CD AC DB 678678

27 Optimalizační metody Parsimonie nebere v úvahu délky větví a pravděpodobnosti jednotlivých přechodů Maximální věrohodnost vybírá stromy, kde nepravděpodobné události jsou na delších větvích

28 Testování topologie Bootstrap: výběr s opakováním Jack Knife: výběr bez opakování, ale menší počet sekvencí

29 Kořen stromu

30

31 Programy http://geta.life.uiuc.edu/~nikos/LINKS/biocomputing_servers.html http://bioweb.pasteur.fr/seqanal/phylogeny/phylip-uk.html http://evolution.genetics.washington.edu/phylip/software.html

32 Dodatky Pseudogeny: poměr synonymních a nesynonymních mutací


Stáhnout ppt "Jan Pačes Ústav molekulární genetiky Jiří Vondrášek Ústav organické chemie a biochemie Bioinformatika Predikce."

Podobné prezentace


Reklamy Google