Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Bioinformatika Predikce genů, Fylogenetická analýza

Podobné prezentace


Prezentace na téma: "Bioinformatika Predikce genů, Fylogenetická analýza"— Transkript prezentace:

1 Bioinformatika Predikce genů, Fylogenetická analýza
Bioinformatika Predikce genů, Fylogenetická analýza Úvodní stránka Jiří Vondrášek Ústav organické chemie a biochemie Jan Pačes Ústav molekulární genetiky

2 Rozdílné metody pro prokaryotní a eukaryotní geny.
Predikce genů Založena na nestejném informačním obsahu v kódujících a nekódujících oblastech (kódující potenciál). Rozdílné metody pro prokaryotní a eukaryotní geny. Potřebujeme již existující data. Principy metod homologie (exofish, ..) statistické metody (codonuse, genscan, ..) neuronové sítě (genemark, ..)

3 Výběr kodónů Leucin Rhodobacter capsulatus antikodón počet % CUA <1 CUC CUG CUU UUA UUG Escherichia coli % 4 9 52 10 11 13

4 Predikce genů - statistický výpočet
Pravděpodobnost výskytu znaku (řetězce) na pozici i: Pi = fi / S f Pravděpodobnost výskytu určitého úseku (okna): Pw = P1 . P2 .. Pw kde w je délka úseku = S logPi kde i = 1..w Pro daný úsek získáme šest hodnot, které normujeme, např: CPf = CPi / S CP kde i = 1..6

5 codonuse grafické rozhraní ke statistickému výpočtu používá dicodon preferences variabilní okno při prohledávání

6 CRITICA prokaryotické geny hledání RBS (ribosomal binding site, Shine-Dalgarnova sekvence) Princip: TBLASTP proti proteinové databázi a vytypování "jistě" kódujících sekvencí (většinou nekompletních genů). Vytvoření statistického modelu. Predikce genů. Vytvoření dalšího statistického modelu a predikce genů.

7 Pravděpodobnostní rozsah
Genscan eukaryotické geny počítá různě první, prostřední a poslední exon promotory, terminátory, polyA různé statistické parametry pro různé GC www: Pravděpodobnostní rozsah Exony Přesně Částečně Překryv Chybně 248 29.8% 27.8% 4.0% 38.3% 362 54.1% 26.2% 2.2% 17.4% 337 74.8% 16.0% 1.2% 8.0% 263 87.8% 6.1% 0.4% 5.7% 551 92.4% 3.4% 0.2% 917 97.7% 0.9% 0.0% 1.4%

8 Genscan - příklad Suboptimal exons with probability > 0.100
Exnum Type S .Begin ...End .Len Fr Ph B/Ac Do/T CodRg P.... Tscr.. S.001 Init S.002 Intr S.003 Intr S.004 Init S.005 Intr S.006 Intr S.007 Intr S.008 Intr S.009 Intr S.010 Intr S.011 Intr S.012 Init S.013 Init S.014 Intr S.015 Intr S.016 Term S.017 Term Predicted peptide sequence(s): GENSCAN Date run: 31-Oct Time: 15:54:20 Sequence HERV17_ : bp : 37.79% C+G : Isochore 1 ( C+G%) Parameter matrix: HumanIso.smat Predicted genes/exons: Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr.. 1.01 Init 1.02 Term 1.03 PlyA 2.00 Prom 2.01 Init 2.02 Term 2.03 PlyA 3.08 PlyA 3.07 Term 3.06 Intr 3.05 Intr 3.04 Intr 3.03 Intr 3.02 Intr 3.01 Init 3.00 Prom 4.00 Prom 4.01 Init 4.02 Intr 4.03 Term 4.04 PlyA

9 Programy a www servery Rozcestník: http://www.hgc.ims.utokyo.ac.jp/
/~katsu/genefinding/programs.html Obecné a multi: Jednotlivé programy:

10 Fylogenetická analýza
Odhaduje evoluční souvislosti mezi daty Výchozí předpoklady: kumulace jednotlivých změn změny jsou náhodné přibližně stejná evoluční rychlost (molekulární čas)

11 Multile alignment

12 Evoluční stromy - terminologie
nody (uzly) vnitřní vnější větve topologie stromu bifurkační strom aditivní strom ultrametrický strom kořen (root) stromu pravdivý (korektní) odvozený

13 Evoluční stromy - příklad
( polyA_26: , HERV17_27: ): , polyA_410: ): , polyA_20: , HERV17_15: ): , HERV17_76: ): ): , polyA_30: , polyA_99: , HERV17_19: ): )

14 Evoluční stromy - příklad
Evoluční strom pTR5 rodiny lidských endogenních retrovirů

15 Evoluční stromy - tvorba
Algoritmické metody - rychlé, dávají jednoznačný výsledek, ale ne vždy nejlepší (lokální optimum). Optimalizační metody - pomalejší, ale naleznou globální optimum. Požadavky na vstupní sekvenční data: Alignment pouze homologních částí Vynechat gaps (Stromy založené na binárních datech, jako je restrikční analýza nebo unikatní inzerce a delece.)

16 Algoritmické (distanční) metody
Metoda: shluková analýza Vstup: matice distancí (substituční model) UGPMA (Unweighted pair group method with arithmetic averages) WGPMA Neighbour-joining

17 Star decomposition method
Neighbour-joining Star decomposition method

18 Jednoparametrická: Jukes-Cantor Dvouparametrická: Kimura
Substituční modely Pro DNA: Jednoparametrická: Jukes-Cantor Dvouparametrická: Kimura Transice: purin - purin Transverze: pyrimidin - purin Pro proteiny: Substituční matice (Blosum etc)

19 Matice distancí 9 polyA_26 polyA_ polyA_ polyA_ polyA_ HERV17_ HERV17_ HERV17_ HERV17_

20 Metoda: hledání optimálního stromu Vstup: multiple alignment
Optimalizační metody Metoda: hledání optimálního stromu Vstup: multiple alignment · parsimonie (parsimony) · maximální věrohodnost (maximum likehood - ML) · párové distanční metody (pairwise distance methods).

21 Parsimonie A C B D A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA

22 Parsimonie 1 1 A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA A C B D A B

23 Parsimonie 2 1 + 1 1 + 2 A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA A

24 Parsimonie 3 2 + 2 3 + 1 A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA
3 + 2 B D A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA A B C D A C D B

25 Parsimonie 4 4 + 1 4 + 2 A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA
5 + 2 B D A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA A B C D A C D B

26 Parsimonie 5 6 7 A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA 8 A C B D

27 Optimalizační metody Parsimonie nebere v úvahu délky větví a pravděpodobnosti jednotlivých přechodů Maximální věrohodnost vybírá stromy, kde nepravděpodobné události jsou na delších větvích

28 Bootstrap: výběr s opakováním
Testování topologie Bootstrap: výběr s opakováním Jack Knife: výběr bez opakování, ale menší počet sekvencí

29 Kořen stromu

30 Kořen stromu

31 Programy

32 Pseudogeny: poměr synonymních a nesynonymních mutací
Dodatky Pseudogeny: poměr synonymních a nesynonymních mutací


Stáhnout ppt "Bioinformatika Predikce genů, Fylogenetická analýza"

Podobné prezentace


Reklamy Google