Bioinformatika Predikce genů, Fylogenetická analýza

Slides:



Advertisements
Podobné prezentace
Obecně použitelné odvození
Advertisements

Single Nucleotide Polymorphism
Fylogeografie Studuje geografickou strukturaci populací Navazuje na evoluční biologii, ochranu živ. prostř., taxonomii.
Analytické nástroje GIS
Jiří Gazárek, Martin Havlíček Analýza nezávislých komponent (ICA) v datech fMRI, a ICA necitlivá ke zpoždění.
ENERGIE KLASTRŮ VODY ZÍSKANÁ EVOLUČNÍMI ALGORITMY
Některé pojmy teorie grafů I. Příklad: log p ABC = u 0 + u A + u B + u C + u AB + u AC A B C.
Zarovnávání biologických sekvencí
DOK „Umělá inteligence“ v DOK (i jinde). NEURONOVÉ SÍTĚ.
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Jiří Novák
Praktikum základů genomiky, zima 2007 Základy genomiky I. Úvod do bioinformatiky Jan Hejátko Masarykova univerzita, Laboratoř funkční genomiky a proteomiky.
Základy genomiky II. Identifikace genů Jan Hejátko
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
MOLEKULÁRNÍ TAXONOMIE
Decision Trees & Genetic Programming 1 Klasické DT V některých případech nepraktické.
PROTEIN MASS FINGERPRINT. DNA/RNA MASS FINGERPRINT.
Matice distancí v mnohorozměrné analýze. Distanční matice – proč se objevují? Vzdálenosti mezi objekty v terénu Vzdálenosti mezi taxony ve fylogenetickém.
Jak se pozná nejlepší strom?
Shluková analýza.
What is Bioinformatics?---The Tight Definition "Classical" bioinformatics Fredj Tekaia at the Institut Pasteur offers this definition of bioinformatics:
Stanovení genetické vzdálenosti
Genetické algoritmy Lukáš Kábrt.
Optimalizace versus simulace 9.přednáška. Obecně o optimalizaci  Maximalizovat nebo minimalizovat omezujících podmínkách.  Maximalizovat nebo minimalizovat.
Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA 0,95 PROTEINY SUBSTITUČNÍ SATURACE p.
Genetická diverzita hospodářských zvířat
Inženýrská geodézie 2 Doporučená literatura:
Základy molekulární taxonomie J.Flegr, Praha 2008.
Masarykova univerzita Fakulta sociálních studií PSY252 Statistická analýza dat II Seminář 1.
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ FAKULTA STROJNÍ ÚSTAV PŘÍSTROJOVÉ A ŘÍDICÍ TECHNIKY ODBOR AUTOMATICKÉHO ŘÍZENÍ A INŽENÝRSKÉ INFORMATIKY Aplikace objektově.
Makrozoobentos a klasifikace toků Jarkovský J. 2,3, Kubošová K. 2,3, Zahrádková S. 1, Brabec K. 1, Kokeš J. 4, Klapka R. 2,3 1) Ústav botaniky a zoologie,
Struktura lidského genu
Počítačová část 1. seznámení s on-line databázemi, nástroji a softwarem (databáze, vyhledání sekvencí, základní manipulace se sekvencemi, navržení primerů)
Použití molekulárních znaků v systematice
Výpočet plochy pomocí metody Monte Carlo
Jiří Vondrášek Ústav organické chemie a biochemie AV ČR Bioinformatika podzimní škola výpočetní chemie, Praha 2006.
Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo.
Bioinformatika Jiří Vondrášek Jan Pačes
Obecná deformační metoda Lokální matice tuhosti prutu Řešení nosníků - úvod.
Pathfinding s využitím PostGIS Prezentuje : Jan Kolář.
rozdělení metod využitelnost jednotlivých metod náročnost metod používání metod perspektivy.
 VZNIK GENETICKÉ PROMĚNLIVOSTI = nejdůležitější mikroevoluční
Obecná deformační metoda
JAK NAJÍT NEJLEPŠÍ STROM
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
5. Kvantitativní kladistika kódování znaku pro kladistickou analýzu algoritmy konstrukce fylogenetických stromů na základě maximální parsimonie optimalizační.
SEKVENCE A:MASAQSFYLL SEKVENCE B:MASGQWLLAS Které oblasti A a B jsou si nejvíce podobné ? Jsou si A a B víc podobné než A a C ? Která ze sekvencí X1,...,Xn.
Bioinformatika pro PfUK 2002
Optimalizace versus simulace 8.přednáška. Obecně o optimalizaci  Maximalizovat nebo minimalizovat omezujících podmínkách.  Maximalizovat nebo minimalizovat.
Vyhledávání vzorů (template matching)
Jan Pačes Ústav molekulární genetiky Jiří Vondrášek Ústav organické chemie a biochemie Alignment I
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
>gi| |ref|NC_ | Pan paniscus mitochondrion, complete genome GTTTATGTAGCTTACCCCCTTAAAGCAATACACTGAAAATGTTTCGACGGGTTTATATCACCCCATAAAC AAACAGGTTTGGTCCTAGCCTTTCTATTAGCTCTTAGTAAGATTACACATGCAAGCATCCGTCCCGTGAG.
Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.
Exonové, intronové, promotorové mutace
SNPs Single Nucleotide Polymorphism Polymorfimus DNA, kdy se jedinci nebo druhy liší v jedné nukleotidové záměně AAGCCTA AAGCTTA V tomto případě mluvíme.
Databáze ● úložiště dat s definovaným přístupem ● typy struktury – strom, sekvence, tabulka ● sestává z uspořádaných záznamů ● databáze – struktura – záznam.
Metodologie molekulární fylogeneze a taxonomie hmyzu Bi7770 Andrea Tóthová MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE CZ.1.07/2.2.00/
NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku Prezentace 10 min. ( po přednášce) Proč ho psát? Získáte 4 body ke zkoušce Bodování.
Obecně použitelné odvození
Exonové, intronové, promotorové mutace
Jak se pozná nejlepší strom?
Metody strojového učení
MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE
Fylogenetická evoluční analýza
Jak získáváme znaky pomocí sekvenace unikátních lokusů
ANALÝZA A KLASIFIKACE DAT
Pokročilé neparametrické metody Validační techniky
Obecně použitelné odvození
Jak získáváme znaky pomocí sekvenace unikátních lokusů
SUBSTITUČNÍ SATURACE 0,95 PROTEINY 0,75 DNA p
Transkript prezentace:

Bioinformatika Predikce genů, Fylogenetická analýza 11.4.2017 Bioinformatika Predikce genů, Fylogenetická analýza http://bio.img.cas.cz/PrfUK2002 Úvodní stránka Jiří Vondrášek Ústav organické chemie a biochemie vondrasek@uochb.cas.cz Jan Pačes Ústav molekulární genetiky hpaces@img.cas.cz

Rozdílné metody pro prokaryotní a eukaryotní geny. Predikce genů Založena na nestejném informačním obsahu v kódujících a nekódujících oblastech (kódující potenciál). Rozdílné metody pro prokaryotní a eukaryotní geny. Potřebujeme již existující data. Principy metod homologie (exofish, ..) statistické metody (codonuse, genscan, ..) neuronové sítě (genemark, ..)

Výběr kodónů Leucin Rhodobacter capsulatus antikodón počet % CUA 3 <1 CUC 119 16 CUG 458 60 CUU 157 20 UUA 0 0 UUG 27 3 Escherichia coli % 4 9 52 10 11 13

Predikce genů - statistický výpočet Pravděpodobnost výskytu znaku (řetězce) na pozici i: Pi = fi / S f Pravděpodobnost výskytu určitého úseku (okna): Pw = P1 . P2 .. Pw kde w je délka úseku = S logPi kde i = 1..w Pro daný úsek získáme šest hodnot, které normujeme, např: CPf = CPi / S CP kde i = 1..6

codonuse grafické rozhraní ke statistickému výpočtu používá dicodon preferences variabilní okno při prohledávání

CRITICA prokaryotické geny hledání RBS (ribosomal binding site, Shine-Dalgarnova sekvence) Princip: TBLASTP proti proteinové databázi a vytypování "jistě" kódujících sekvencí (většinou nekompletních genů). Vytvoření statistického modelu. Predikce genů. Vytvoření dalšího statistického modelu a predikce genů.

Pravděpodobnostní rozsah Genscan eukaryotické geny počítá různě první, prostřední a poslední exon promotory, terminátory, polyA různé statistické parametry pro různé GC www: http://genes.mit.edu/GENSCAN.html Pravděpodobnostní rozsah Exony Přesně Částečně Překryv Chybně 0.00 - 0.50 248 29.8% 27.8% 4.0% 38.3% 0.50 - 0.75 362 54.1% 26.2% 2.2% 17.4% 0.75 - 0.90 337 74.8% 16.0% 1.2% 8.0% 0.90 - 0.95 263 87.8% 6.1% 0.4% 5.7% 0.95 - 0.99 551 92.4% 3.4% 0.2% 0.99 - 1.00 917 97.7% 0.9% 0.0% 1.4%

Genscan - příklad Suboptimal exons with probability > 0.100 Exnum Type S .Begin ...End .Len Fr Ph B/Ac Do/T CodRg P.... Tscr.. ----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------ S.001 Init + 2937 3136 200 2 2 67 -22 154 0.301 0.72 S.002 Intr + 3239 3325 87 2 0 43 23 121 0.358 -0.73 S.003 Intr + 17250 17375 126 0 0 66 72 94 0.141 4.47 S.004 Init + 17311 17375 65 0 2 55 72 45 0.204 0.27 S.005 Intr - 24927 24728 200 2 2 12 91 115 0.146 2.27 S.006 Intr - 25129 25003 127 2 1 51 92 37 0.117 -0.78 S.007 Intr - 29973 29878 96 1 0 44 111 87 0.473 5.66 S.008 Intr - 32589 32418 172 2 1 19 70 151 0.336 5.42 S.009 Intr - 32563 32427 137 2 2 46 70 116 0.122 4.97 S.010 Intr - 32589 32427 163 2 1 19 70 135 0.114 3.86 S.011 Intr - 32857 32804 54 0 0 104 103 2 0.262 0.48 S.012 Init - 33114 33008 107 0 2 79 17 87 0.296 0.46 S.013 Init + 37062 37067 6 2 0 53 68 1 0.115 -4.38 S.014 Intr + 38237 38315 79 1 1 35 38 94 0.175 -2.69 S.015 Intr + 38270 38315 46 1 1 81 38 59 0.170 -2.74 S.016 Term + 38623 39059 437 2 2 55 49 266 0.139 13.86 S.017 Term + 38872 39059 188 2 2 62 49 243 0.212 14.47 Predicted peptide sequence(s): GENSCAN 1.0 Date run: 31-Oct-100 Time: 15:54:20 Sequence HERV17_004640 : 40714 bp : 37.79% C+G : Isochore 1 ( 0.00 - 43.00 C+G%) Parameter matrix: HumanIso.smat Predicted genes/exons: Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr.. ----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------ 1.01 Init + 1825 1853 29 0 2 86 71 45 0.579 1.72 1.02 Term + 3886 4075 190 1 1 85 44 198 0.941 11.04 1.03 PlyA + 4961 4966 6 1.05 2.00 Prom + 6668 6707 40 -4.65 2.01 Init + 17251 17375 125 0 2 45 72 80 0.590 1.81 2.02 Term + 20137 20329 193 1 1 85 43 196 0.990 10.71 2.03 PlyA + 20809 20814 6 1.05 3.08 PlyA - 21608 21603 6 -3.24 3.07 Term - 22315 21651 665 2 2 -17 55 522 0.952 31.44 3.06 Intr - 24268 22592 1677 2 0 81 94 2124 0.885 198.67 3.05 Intr - 24877 24728 150 2 0 34 91 101 0.783 4.21 3.04 Intr - 29976 29878 99 1 0 48 111 82 0.473 5.66 3.03 Intr - 31296 31170 127 0 1 89 82 101 0.997 8.93 3.02 Intr - 32563 32418 146 2 2 46 70 132 0.303 6.28 3.01 Init - 33114 33006 109 0 1 79 12 93 0.406 1.25 3.00 Prom - 35592 35553 40 -5.85 4.00 Prom + 36433 36472 40 -4.25 4.01 Init + 37863 37909 47 2 2 71 58 16 0.307 -2.89 4.02 Intr + 38032 38102 71 1 2 33 67 79 0.531 -1.79 4.03 Term + 38614 39059 446 2 2 66 49 276 0.577 15.91 4.04 PlyA + 39744 39749 6 1.05

Programy a www servery Rozcestník: http://www.hgc.ims.utokyo.ac.jp/ /~katsu/genefinding/programs.html Obecné a multi: http://dot.imgen.bcm.tmc.edu:9331/seq-search/gene-search.html http://bioweb.pasteur.fr/seqanal Jednotlivé programy: http://genes.mit.edu/GENSCAN.html http://www.tigr.org/tdb/glimmerm/glmr_form.html http://www.tigr.org/~salzberg/veil.html http://www.tigr.org/~salzberg/morgan.html http://kicy.genoscope.cns.fr/cgi-bin/exofish_kicy.cgi http://www.fruitfly.org/~martinr/doc/genie.html http://www.resp-sci.arizona.edu/genlab/genehunter.htm

Fylogenetická analýza Odhaduje evoluční souvislosti mezi daty Výchozí předpoklady: kumulace jednotlivých změn změny jsou náhodné přibližně stejná evoluční rychlost (molekulární čas)

Multile alignment

Evoluční stromy - terminologie nody (uzly) vnitřní vnější větve topologie stromu bifurkační strom aditivní strom ultrametrický strom kořen (root) stromu pravdivý (korektní) odvozený

Evoluční stromy - příklad ( polyA_26:0.042779, HERV17_27:0.049179 ):0.008643, polyA_410:0.045034 ):0.001912, polyA_20:0.039953, HERV17_15:0.034230 ):0.003074, HERV17_76:0.041414 ):0.002812 ):0.001440, polyA_30:0.042838, polyA_99:0.052972, HERV17_19:0.041888 ):0.003257 )

Evoluční stromy - příklad Evoluční strom pTR5 rodiny lidských endogenních retrovirů

Evoluční stromy - tvorba Algoritmické metody - rychlé, dávají jednoznačný výsledek, ale ne vždy nejlepší (lokální optimum). Optimalizační metody - pomalejší, ale naleznou globální optimum. Požadavky na vstupní sekvenční data: Alignment pouze homologních částí Vynechat gaps (Stromy založené na binárních datech, jako je restrikční analýza nebo unikatní inzerce a delece.)

Algoritmické (distanční) metody Metoda: shluková analýza Vstup: matice distancí (substituční model) UGPMA (Unweighted pair group method with arithmetic averages) WGPMA Neighbour-joining

Star decomposition method Neighbour-joining Star decomposition method

Jednoparametrická: Jukes-Cantor Dvouparametrická: Kimura Substituční modely Pro DNA: Jednoparametrická: Jukes-Cantor Dvouparametrická: Kimura Transice: purin - purin Transverze: pyrimidin - purin Pro proteiny: Substituční matice (Blosum etc)

Matice distancí 9 polyA_26 polyA_30 0.1102 polyA_20 0.1144 0.1027 polyA_99 0.1326 0.1100 0.1237 polyA_410 0.1089 0.1009 0.1067 0.1150 HERV17_27 0.1070 0.1263 0.1285 0.1504 0.1198 HERV17_76 0.0960 0.1024 0.0953 0.1221 0.1036 0.1188 HERV17_19 0.1045 0.0994 0.1019 0.1097 0.1059 0.1304 0.0975 HERV17_15 0.0980 0.0975 0.0841 0.1170 0.0977 0.1127 0.0860 0.0927

Metoda: hledání optimálního stromu Vstup: multiple alignment Optimalizační metody Metoda: hledání optimálního stromu Vstup: multiple alignment · parsimonie (parsimony) · maximální věrohodnost (maximum likehood - ML) · párové distanční metody (pairwise distance methods).

Parsimonie A C B D A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA

Parsimonie 1 1 A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA A C B D A B

Parsimonie 2 1 + 1 1 + 2 A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA A

Parsimonie 3 2 + 2 3 + 1 A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA 3 + 2 B D A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA A B C D A C D B

Parsimonie 4 4 + 1 4 + 2 A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA 5 + 2 B D A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA A B C D A C D B

Parsimonie 5 6 7 A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA 8 A C B D

Optimalizační metody Parsimonie nebere v úvahu délky větví a pravděpodobnosti jednotlivých přechodů Maximální věrohodnost vybírá stromy, kde nepravděpodobné události jsou na delších větvích

Bootstrap: výběr s opakováním Testování topologie Bootstrap: výběr s opakováním Jack Knife: výběr bez opakování, ale menší počet sekvencí

Kořen stromu

Kořen stromu

Programy http://geta.life.uiuc.edu/~nikos/LINKS/biocomputing_servers.html http://bioweb.pasteur.fr/seqanal/phylogeny/phylip-uk.html http://evolution.genetics.washington.edu/phylip/software.html

Pseudogeny: poměr synonymních a nesynonymních mutací Dodatky Pseudogeny: poměr synonymních a nesynonymních mutací