Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Jan Pačes Ústav molekulární genetiky Jiří Vondrášek Ústav organické chemie a biochemie Bioinformatika Predikce.

Podobné prezentace


Prezentace na téma: "Jan Pačes Ústav molekulární genetiky Jiří Vondrášek Ústav organické chemie a biochemie Bioinformatika Predikce."— Transkript prezentace:

1 Jan Pačes Ústav molekulární genetiky Jiří Vondrášek Ústav organické chemie a biochemie Bioinformatika Predikce genů, Fylogenetická analýza

2 Predikce genů Založena na nestejném informačním obsahu v kódujících a nekódujících oblastech (kódující potenciál). Rozdílné metody pro prokaryotní a eukaryotní geny. Potřebujeme již existující data. Principy metod homologie (exofish,..) statistické metody (codonuse, genscan,..) neuronové sítě (genemark,..)

3 Výběr kodónů Leucin Rhodobacter capsulatus antikodónpočet % CUA 3 <1 CUC CUG CUU UUA 0 0 UUG 27 3 Escherichia coli %

4 Predikce genů - statistický výpočet Pravděpodobnost výskytu znaku (řetězce) na pozici i: P i = f i /  f Pravděpodobnost výskytu určitého úseku (okna): P w = P 1. P 2.. P w kde w je délka úseku =  logP i kde i = 1..w Pro daný úsek získáme šest hodnot, které normujeme, např: CP f = CP i /  CP kde i = 1..6

5 codonuse grafické rozhraní ke statistickému výpočtu používá dicodon preferences variabilní okno při prohledávání

6 CRITICA prokaryotické geny hledání RBS (ribosomal binding site, Shine-Dalgarnova sekvence) Princip: TBLASTP proti proteinové databázi a vytypování "jistě" kódujících sekvencí (většinou nekompletních genů). Vytvoření statistického modelu. Predikce genů. Vytvoření dalšího statistického modelu a predikce genů.

7 Genscan eukaryotické geny počítá různě první, prostřední a poslední exon promotory, terminátory, polyA různé statistické parametry pro různé GC www: Pravděpodobnostní rozsah ExonyPřesněČástečněPřekryvChybně %27.8%4.0%38.3% %26.2%2.2%17.4% %16.0%1.2%8.0% %6.1%0.4%5.7% %3.4%0.2%4.0% %0.9%0.0%1.4%

8 GENSCAN 1.0 Date run: 31-Oct-100 Time: 15:54:20 Sequence HERV17_ : bp : 37.79% C+G : Isochore 1 ( C+G%) Parameter matrix: HumanIso.smat Predicted genes/exons: Gn.Ex Type S.Begin...End.Len Fr Ph I/Ac Do/T CodRg P.... Tscr Init Term PlyA Prom Init Term PlyA PlyA Term Intr Intr Intr Intr Intr Init Prom Prom Init Intr Term PlyA Genscan - příklad Suboptimal exons with probability > Exnum Type S.Begin...End.Len Fr Ph B/Ac Do/T CodRg P.... Tscr S.001 Init S.002 Intr S.003 Intr S.004 Init S.005 Intr S.006 Intr S.007 Intr S.008 Intr S.009 Intr S.010 Intr S.011 Intr S.012 Init S.013 Init S.014 Intr S.015 Intr S.016 Term S.017 Term Predicted peptide sequence(s):

9 Programy a www servery Rozcestník: /~katsu/genefinding/programs.html Obecné a multi: Jednotlivé programy:

10 Fylogenetická analýza Odhaduje evoluční souvislosti mezi daty Výchozí předpoklady: kumulace jednotlivých změn změny jsou náhodné přibližně stejná evoluční rychlost (molekulární čas)

11 Multile alignment

12 Evoluční stromy - terminologie nody (uzly) vnitřní vnější větve topologie stromu bifurkační strom aditivní strom ultrametrický strom kořen (root) stromu pravdivý (korektní) odvozený

13 ( polyA_26: , HERV17_27: ): , polyA_410: ): , ( polyA_20: , HERV17_15: ): , HERV17_76: ): ): , polyA_30: , ( polyA_99: , HERV17_19: ): ) Evoluční stromy - příklad

14 Evoluční strom pTR5 rodiny lidských endogenních retrovirů

15 Evoluční stromy - tvorba Algoritmické metody - rychlé, dávají jednoznačný výsledek, ale ne vždy nejlepší (lokální optimum). Optimalizační metody - pomalejší, ale naleznou globální optimum. Požadavky na vstupní sekvenční data: Alignment pouze homologních částí Vynechat gaps (Stromy založené na binárních datech, jako je restrikční analýza nebo unikatní inzerce a delece.)

16 Algoritmické (distanční) metody Metoda: shluková analýza Vstup: matice distancí (substituční model) UGPMA (Unweighted pair group method with arithmetic averages) WGPMA Neighbour-joining

17 Star decomposition method

18 Substituční modely Pro DNA: Jednoparametrická: Jukes-Cantor Dvouparametrická: Kimura Transice: purin - purin Transverze: pyrimidin - purin Pro proteiny: Substituční matice (Blosum etc)

19 9 polyA_26 polyA_ polyA_ polyA_ polyA_ HERV17_ HERV17_ HERV17_ HERV17_ Matice distancí

20 Optimalizační metody Metoda: hledání optimálního stromu Vstup: multiple alignment  parsimonie (parsimony)  maximální věrohodnost (maximum likehood - ML)  párové distanční metody (pairwise distance methods).

21 Parsimonie A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA AC BD AB CD AC DB

22 Parsimonie 1 AC BD A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA AB CD AC DB

23 Parsimonie 2 AC BD A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA AB CD AC DB

24 Parsimonie 3 AC BD A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA AB CD AC DB

25 Parsimonie 4 AC BD A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA AB CD AC DB

26 Parsimonie 5 AC BD A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA AB CD AC DB

27 Optimalizační metody Parsimonie nebere v úvahu délky větví a pravděpodobnosti jednotlivých přechodů Maximální věrohodnost vybírá stromy, kde nepravděpodobné události jsou na delších větvích

28 Testování topologie Bootstrap: výběr s opakováním Jack Knife: výběr bez opakování, ale menší počet sekvencí

29 Kořen stromu

30

31 Programy

32 Dodatky Pseudogeny: poměr synonymních a nesynonymních mutací


Stáhnout ppt "Jan Pačes Ústav molekulární genetiky Jiří Vondrášek Ústav organické chemie a biochemie Bioinformatika Predikce."

Podobné prezentace


Reklamy Google