Jan Pačes Ústav molekulární genetiky Jiří Vondrášek Ústav organické chemie a biochemie Alignment I

Slides:



Advertisements
Podobné prezentace
Algoritmy zpracování textů II
Advertisements

Půlbajtová komprimace
Užití podobnosti Změna délky úsečky v daném poměru
Obecně použitelné odvození
Jan Pačes
Práce s textem Jan Martinovič Fakulta elektrotechniky a informatiky
POPULAČNÍ GENETIKA 3 Pravděpodobnost v genetice populací
Zarovnávání biologických sekvencí
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Jiří Novák
Praktikum základů genomiky, zima 2007 Základy genomiky I. Úvod do bioinformatiky Jan Hejátko Masarykova univerzita, Laboratoř funkční genomiky a proteomiky.
Jak se pozná nejlepší strom?
VY_32_INOVACE_05_PVP_242_Hol
PB161 Jmenné prostory, I/O proudy PB161 | Jmenné prostory, IO proudy PB161 – Programování v jazyce C++ Objektově Orientované Programování.
Stanovení genetické vzdálenosti
Datové typy a práce s nimi
Pravděpodobnost a genetická prognóza
Využití vzorců a funkcí k úpravám v textu
Výukový materiál zpracován v rámci projektu EU peníze školám Registrační číslo projektu: CZ.1.07/1.5.00/ Šablona III/2VY_32_INOVACE_173.
Nukleové kyseliny Struktura DNA a RNA Milada Roštejnská Helena Klímová
METABOLISMUS BÍLKOVIN II Anabolismus
Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Mgr. Monika Chudárková ANOTACE Materiál seznamuje žáky s nejznámějšími karboxylovými kyselinami,
BÍLKOVINY (AMINOKYSELINY)
Bioinformatika Predikce genů, Fylogenetická analýza
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Jiří Vondrášek Ústav organické chemie a biochemie AV ČR Bioinformatika podzimní škola výpočetní chemie, Praha 2006.
Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo.
Výukový materiál zpracován v rámci projektu EU peníze školám Registrační číslo projektu: CZ.1.07/1.5.00/ Šablona III/2VY_32_INOVACE_174.
Bioinformatika Jiří Vondrášek Jan Pačes
Molekulární základy dědičnosti
Molekulární genetika.
Sekvenování.
BLAST (basic local alignment search tool) Vyhledává podobné sekvence v databázích. Stal se nástrojem pro všechno. Určitou dobu kolektiv autorů držel krok.
VISUAL BASIC PRALG.
Odvození zarovnání více řetězců z párového zarovnání, SP-skóre Ondřej Kazík 2008.
JAK NAJÍT NEJLEPŠÍ STROM
Výukový materiál zpracován v rámci projektu EU peníze školám Registrační číslo projektu: III/2VY_32_inovace_239.
Informační zdroje pro molekulární biologii M. Jurajda.
Bioinformatika Radka Storchová.
Kmity krystalové mříže  je nutné popisovat pomocí QM  energie tepelného pohybu je kvantovaná  je principiálně nemožné pozorovat detaily atomového a.
SEKVENCE A:MASAQSFYLL SEKVENCE B:MASGQWLLAS Které oblasti A a B jsou si nejvíce podobné ? Jsou si A a B víc podobné než A a C ? Která ze sekvencí X1,...,Xn.
DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ
Bioinformatika pro PfUK 2002
Biologická sekvence (BS) ACAGTGCGAGCATGACGATGACGCAGCAGATTGACAGAGACGATAGCAGCAT MASAQSFYLLHLAVDDFMNGAGVLSHERELLFYDENKIHDIVISMNDENMNQ Jazyk THISISJUSTASIMPLESENTENCEINENGLISHFORYOURINSPIRATION.
Sacharidová složka nukleotidů
Vítejte na Přírodovědecké fakultě
CG020 Genomika Bi7201 Základy genomiky Přednáška 1
Ildikó Németh, Marek Motola, Tomáš Merta
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.
Exonové, intronové, promotorové mutace
Vytváření tabulek MS Access (4). Projekt: CZ.1.07/1.5.00/ OAJL - inovace výuky Příjemce: Obchodní akademie, odborná škola a praktická škola pro.
Biotechnologie, technologie budoucnosti Aleš Eichmeier.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Základy molekulární genetiky. Bílkoviny Makromolekuly složené z aminokyselin jedna molekula bílkoviny tvořena obvykle stovkami aminokyselin v živých organismech.
VZORCE AMINOKYSELIN PŘIŘAZOVAČKA Přiřaďte ke vzorcům označených čísly 1 – 10 správný název z nabídky aminokyselin.
Bílkoviny - aminokyseliny. Složení bílkovin -aminokyseliny – stavební kameny bílkovin Známo asi 300 druhů Proteinogenních 20, jsou řady L–α –AK Pozn.
Obecně použitelné odvození
Exonové, intronové, promotorové mutace
Základní pojmy v automatizační technice
Metabolismus bílkovin biosyntéza
Molekulárně-biologické databáze
Deriváty karboxylových kyselin
Věty o podobnosti trojúhelníků
Genetický kód – translace
Molekulární genetika Tok genetické informace:
Fylogenetická evoluční analýza
Jak získáváme znaky pomocí sekvenace unikátních lokusů
Nástroje pro zpracování a grafickou úpravu sekvenčních dat
Genetický kód Jakmile vznikne funkční mRNA, informace v ní obsažená může být ihned použita pro syntézu proteinu. Pravidla, kterými se řídí prostřednictvím.
Testování hypotéz - pojmy
Transkript prezentace:

Jan Pačes Ústav molekulární genetiky Jiří Vondrášek Ústav organické chemie a biochemie Alignment I Bioinformatika pro PfUK 2002

kódnukleotidykomplement AAT CCG GGC TTA (UU)A MACK RAGY WATS SCGW YCTR KGTM VACGB HACTD DAGTH BCGTV NACGTN -mezera- kódtřípísmenný kódaminokyselina AAlaalanin CCyscystein DAspasparagová kyselina GGluglutamová kyselina HHishistidin IIleisoleucin KLyslysin LLeuleucin MMetmethionin NAsnasparagin PProprolin QGlnglutamin RArgarginin SSerserin TThrthreonin VValvalin WTrptryptofan YTyrtyrosin BAsxasparagová kys. nebo asparagin ZGlxglutamová kys. nebo glutamin XXxxjakákoliv aminokyselina *---stop nukleotidyaminokyseliny IUB kódy

fasta >gi| |gb|AF |AF Mus musculus transcription factor PAX4 (Pax4) TGGCAGGACTGAAGCAGCTGGAGGCTGTTACAAGACCAGACCACCAGCAAACCCTGGAGCCTGCACAGGA CCCTGAGACCTCTTCCTGGAATTCCCACCTTTTTTCCTCCATCCAGAACCAGTCCCAAAGAGAAACTTCC AGAAGGAGCTCTCCGTTTTCAGTTTGCCAGTTGGCTTCCTGTCCTTCTGTGAGGAGTACCAGTGTGAAGC ATGCAGCAGGACGGACTCAGCAGTGTGAATCAGCTAGGGGGACTCTTTGTGAATGGCCGGCCCCTTCCTC TGGACACCAGGCAGCAGATTGTGCAGCTAGCAATAAGAGGGATGCGACCCTGTGACATTTCACGGAGCCT TAAGGTATCTAATGGCTGTGTGAGCAAGATCCTAGGACGCTACTACCGCACAGGTGTCTTGGAACCCAAG TGTATTGGGGGAAGCAAACCACGTCTGGCCACACCTGCTGTGGTGGCTCGAATTGCCCAGCTAAAGGATG AGTACCCTGCTCTTTTTGCCTGGGAGATCCAACACCAGCTTTGCACTGAAGGGCTTTGTACCCAGGACAA GGCTCCCAGTGTGTCCTCTATCAATCGAGTACTTCGGGCACTTCAGGAAGACCAGAGCTTGCACTGGACT CAACTCAGATCACCAGCTGTGTTGGCTCCAGTTCTTCCCAGTCCCCACAGTAACTGTGGGGCTCCCCGAG GCCCCCACCCAGGAACCAGCCACAGGAATCGGACTATCTTCTCCCCGGGACAAGCCGAGGCACTGGAGAA AGAGTTTCAGCGTGGGCAGTATCCAGATTCAGTGGCCCGTGGGAAGCTGGCTGCTGCCACCTCTCTGCCT GAAGACACGGTGAGGGTTTGGTTTTCTAACAGAAGAGCCAAATGGCGCAGGCAAGAGAAGCTGAAATGGG AAGCACAGCTGCCAGGTGCTTCCCAGGACCTGACAGTACCAAAAAATTCTCCAGGGATCATCTCTGCACA GCAGTCCCCCGGCAGTGTACCCTCAGCTGCCTTGCCTGTGCTGGAACCATTGAGTCCTTCCTTCTGTCAG CTATGCTGTGGGACAGCACCAGGCAGATGTTCCAGTGACACCTCATCCCAGGCCTATCTCCAACCCTACT GGGACTGCCAATCCCTCCTTCCTGTGGCTTCCTCCTCATATGTGGAATTTGCCTGGCCCTGCCTCACCAC CCATCCTGTGCATCATCTGATTGGAGGCCCAGGACAAGTGCCATCAACCCATTGCTCAAACTGGCCATAA GAGGCCTCTATTTGACAGTAATAAAAACCTTTTCTTAGATGTTAAAAAAAAAAAAAAAAAAAAAAAAAAA AAAAAAAAAAAAAAAAAAAAAAAAAAAAAA formáty sekvencí - FastA

Proč sekvence porovnáváme? Lokální vs. globální alignment. Jaká je pravděpodobnost (statistická významnost) alignmentu. Termíny: similarity (podobnost) homolog, paralog, ortholog alignment

Výchozí předpoklady: pozice jsou na sobě nezávislé pozice jsou rozdělené identicky jednonukleotidové frekvence: f A = A /  N = p A Najít pattern Zjistit statistickou významnost výskytu hledaného patternu podmíněné dinukleotidové frekvence: p* AC = f AC / f A pattern (consenzus) search

p AYC pomocí podmíněných dinukleotidových frekvencí pro sekvenci CGTCAGCATT: f A = 0,2 = p A f G = 0,2 = p G f AG = 0,1f GC = 0,1 p* AG = f AG /f A = 0,5 p* GC = f GC /f A = 0,5 p* AA = p* AC = 0 p AYC = p A. (p* AA + p* AG ). (p* AC + p* GC ) = 0,05 p AYC pomocí jednonukleotidových frekvencí: p A = p C = p G = p T = 0,25 p AYC = p A. (p A + p G ). p C = 0,3125 statistický výpočet

PSI-BLAST HMMER SSEARCH BLITZ FASTA BLAST Pattern search Dot plot 1:1 n:n n ClustalW MultAlign 1:n typy alignmentů

dot plot

54268 CGGTCAGCCGGACCCGGACCACCACGGCAACGGGGCGCGATGTGGTGCGTCAGACCGCGCAGGCGATGGACGACATTGCCCGCAGCTCGGAACAGATCTCGCGCATCACCAGCGTCATCGACGAC ***** *** ****** ***** ** * ******** ******** * ** ********** ****** * ** ******** ***** ** *********** ************ CGGTCGGCCAGACCCGCGAGACCACCGCCGCCGGGCGCGAGGTGGTGCGCCGCACGCTGCAGGCGATGACCGACATCGCGCAAAGCTCGGAGCAGATTTCCCGCATCACCAGTGTCATCGACGAC dot plot

CGAATTGAGTAAGTCAAGGAGAGAAGAGACAGAGAGAGACAGATAGAAAAAAGAGAGGGAGAGAGAGAAAAAGAGAGATAGATA GGANAAAGAGAGAGAGACAGAGAAGGAGAGAGAGAGAGAAAGAGAGACAGAAGAGAGAGAGAGAGAGACAAAGAGAGAAAGAGA dot plot

data: TCATG a CATTG T C A T G : : C A T T G T C A T G. : : :. C A T T G T C A T - G : : : :. C A T T G T C A - T G : : : :. C A T T G porovnávání textových řetězců

formalizace problému Vezměme dvě sekvence a,b (nukleotidové či aminokyselinové) délky m,n: a = a 1,a 2,a 3.. a m b = b 1,b 2,b 3.. b n Chceme je porovnat mezi sebou a vytvořit alignment A, který sestává z řady párů A = (a i b j ).. (a k b l ) kde 1  i <.. < k  m, 1  j <.. < l  n Pro výpočet skóre alignmentu A přiřadíme každému páru hodnotu s(a i,b j ) (pozitivní nebo negativní) v závislosti na tom, zda se jedná o totožný, příbuzný nebo nepříbuzný pár. Skóre subalignmentu S i,j získáme jako maximální skóre předcházejících subalignmentů plus skóre páru s(a i,b j ) : S i,j = max ( S i-1,j, S i,j-1, S i-1,j-1 ) + s i,j Celkové skóre alignmentu je tak S =  s(a i,b j ) pro i = 1..m, j = 1..n Hledání nejlepšího alignmentu je hledáním alignmentu s maximálním skóre ze všech možných alignmentů. pairwise alignment

GGACTCTTGGAAAGG G G A C T G G A A A G GGACTCTTGGAAAGG G G A1111 C11 T111 G G A1111 A1111 A1111 G scoring matrix parametry: match 1; mismatch 0 pairwise alignment

111111G 1111A 1111A 1111A G G 111T 11C 1111A G G GGAAAGGTTCTCAGG GGACTCTTGGAAAGG G G A C T G G A A A G sum matrix pairwise alignment

GGACTCTTGGAAAGG :::: : :::::: GGAC--T-GGAAAG- zpětné hledání pairwise alignment

Ohodnotíme mezery ("gaps") v alignmentu funkcí w x = y + zx pro x  0; y,z  0 kde x je délka mezery ("gap"). Parametr y bývá nazýván "open gap penalty" nebo "gap existence penalty", parametr z "gap extension penalty" nebo "per residue gap penalty". Skóre subalignmentu S i,j získáme z: S k,j - w i-k, pro k=1..i-1 S i,j = max ( S i-1,j-1 ) + s i,j S i,l - w j-l pro l=1..j-1 gaps - formalizace problému pairwise alignment

GGACTCTTGGAAAGG G G A C T G G A A A G scoring matrix parametry: match 2; mismatch -1 GGACTCTTGGAAAGG G G A C 2 2 T 2 22 G G A A A G pairwise alignment

sum matrix parametry: open gap -2 GGACTCTTGGAAAGG G G A C 2 2 T 2 22 G G A A A G GGACTCTTGGAAAGG G G A C T G G A A A G GGACTCTTGGAAAGG G G A C T G G A A A G pairwise alignment

sum matrix GGACTCTTGGAAAGG G G A C T G G A A A G GGACTCTTGGAAAGG G G A C T G G A A A G GGACTCTTGGAAAGG ::::: :::::: GGACT---GGAAAG- pairwise alignment

GGACTCTTGGAAAGG G G G A C T T G A A G G A T T G G A A A G G parametry: match: 2; mismatch: -1; gap: -2 GGACTCTTGGAAAGG G G G A C T T G A A G G A T T G G A A A G G pairwise alignment - možné problémy

jana.s CTCATGCGGTTGCAGAGCTTGAGGTCGGCGTGGGCGGCGGAGGTGAGGGCGAGGGTGGTGACAATGGCGGCGAGGGCGCGCGATCTCCACCCCGTCATGC :::::::::::::: ::::::::::::::::: :: ::::::::::::: ::: ::::::::::::: :::::::::::: :::::::: :::::::::: Contig CTCATGCGGTTGCACAGCTTGAGGTCGGCGTGAGCCGCGGAGGTGAGGGAGAGAGTGGTGACAATGGTGGCGAGGGCGCGTGATCTCCAGCCCGTCATGC jana.s CCGGCCTTGTGCCGGGCAT CCACGTCTTGCTGAGAAAACCGCCGGAAAGACGTGGATGGCCGGGACGAGCCCGGCCATGACGGAT ::::::::::::::::::: ::::::::::::::: :::::::::::::::::::::::::::::::::::::::::::::::::: Contig CCGGCCTTGTGCCGGGCATCCACGTCTTGCTGATCCACGTCTTGCTGAGGAAACCGCCGGAAAGACGTGGATGGCCGGGACGAGCCCGGCCATGACGGAT jana.s GTTGTCGCCGCAGCCTCGCATCACTTGTGGATCAGCGTGCCGGTGCCCTGGTTGGTGAACAATTCGAGCAGCACTGCGTGCGGGACCTTGCCGTCGAGGA ::: ::::::: ::: ::::::::::::::::::::::::::::::::::::::::::::: :::::::::::::::::::::::::::::::::::::: Contig GTTATCGCCGCCGCCCCGCATCACTTGTGGATCAGCGTGCCGGTGCCCTGGTTGGTGAACAGTTCGAGCAGCACTGCGTGCGGGACCTTGCCGTCGAGGA jana.- ---TGCCG-TTG--GAATCGACCCCGATCGCCGTCTCGACCACGTAGCTCATGCGGTTGCAGAGCTTGAGGTCGGCGTGGGCGGCGGAGGTGAGGGCGAG ::: ::: : :::::: :: : :: :: : :::: :: ::: : :: :::: : ::: :: : :::: :: :: Contig CCACCCCGATTGCCGTCTCGACCACG-TAGCTCATGCGGTTGCACAGCT--TGAGGTCG----GCGTGAG--CCGCGGAGGTGAGGGAGAGAGTGGTGAC jana.- GGTGGTGACAATGGCG-GCGAGGGC--GCGCGATCTCCACCCCGTCATGCCCGG---CCTTGTGCCGGGCATCCACGTCTTGCTGAGAAAACCGCCGGAA ::::: : : :::: : :: : :: :: : : : : : :::: :: :: :: : ::::::::::::::::: :::::::::::: Contig AATGGTGGCGAGGGCGCGTGATCTCCAGCCCGTCATGCCCGGCCTTGTGCCGGGCATCCACGTCTTGCTGATCCACGTCTTGCTGAGGAAACCGCCGGAA jana.- AGACGTGGATGGCCGGGACGAGCCCGGCCATGACGGATGTTGTCGCCGCAGCCTCGCATCACTTGTGGATCAGCGTGCCGGTGCCCTGGTTGGTGAACAA ::::::::::::::::::::::::::::::::::::::::: ::::::: ::: ::::::::::::::::::::::::::::::::::::::::::::: Contig AGACGTGGATGGCCGGGACGAGCCCGGCCATGACGGATGTTATCGCCGCCGCCCCGCATCACTTGTGGATCAGCGTGCCGGTGCCCTGGTTGGTGAACAG pairwise alignment - možné problémy

TCAG TTTTPheTCTSerTATTyrTGTCysT TTCPheTCCSerTACTyrTGCCysC TTALeuTCASerTAAStopTGAStopA TTGLeuTCGSerTAGStopTGGTrpG CCTTLeuCCTProCATHisCGTArgT CTCLeuCCCProCACHisCGCArgC CTALeuCCAProCAAGlnCGAArgA CTGLeuCCGProCAGGlnCGGArgG AATTIleACTThrAATAsnAGTSerT ATCIleACCThrAACAsnAGCSerC ATAIleACAThrAAALysAGAArgA ATGMetACGThrAAGLysAGGArgG GGTTValGCTAlaGATAspGGTGlyT GTCValGCCAlaGACAspGGCGlyC GTAValGCAAlaGAAGluGGAGlyA GTGValGCGAlaGAGGluGGGGlyG TCAG TTTTPheTCTSerTATTyrTGTCysT TTCPheTCCSerTACTyrTGCCysC TTALeuTCASerTAAStopTGAStopA TTGLeuTCGSerTAGStopTGGTrpG CCTTLeuCCTProCATHisCGTArgT CTCLeuCCCProCACHisCGCArgC CTALeuCCAProCAAGlnCGAArgA CTGLeuCCGProCAGGlnCGGArgG AATTIleACTThrAATAsnAGTSerT ATCIleACCThrAACAsnAGCSerC ATAIleACAThrAAALysAGAArgA ATGMetACGThrAAGLysAGGArgG GGTTValGCTAlaGATAspGGTGlyT GTCValGCCAlaGACAspGGCGlyC GTAValGCAAlaGAAGluGGAGlyA GTGValGCGAlaGAGGluGGGGlyG genetický kód

PAM (Percent Accepted Mutation) 1 PAM = jedna mutace na cestě mezi dvěma sekvencemi na 100 nukleotidů Princip: proteiny se vyvíjejí pomocí nezávislých mutací a jsou fixovány postupně BLOSSUM substitution matrix

300 mil. let PAM 300 PAM mil. let 250 mil. let PAM 100 PAM 250 substitution matrix

# Entropy = , Expected = A R N D C Q E G H I L K M F P S T W Y V B Z X * A R N D C Q E G H I L K M F P S T W Y V B Z X * R N D C W BLOSUM 45 substitution matrix

# Entropy = , Expected = A R N D C Q E G H I L K M F P S T W Y V B Z X * A R N D C Q E G H I L K M F P S T W Y V B Z X * BLOSUM 62 R N D C W substitution matrix

WRNDCW PAM PAM PAM BLOSUM BLOSUM BLOSUM substitution matrix