Jan Pačes Ústav molekulární genetiky Jiří Vondrášek Ústav organické chemie a biochemie Alignment I Bioinformatika pro PfUK 2002
kódnukleotidykomplement AAT CCG GGC TTA (UU)A MACK RAGY WATS SCGW YCTR KGTM VACGB HACTD DAGTH BCGTV NACGTN -mezera- kódtřípísmenný kódaminokyselina AAlaalanin CCyscystein DAspasparagová kyselina GGluglutamová kyselina HHishistidin IIleisoleucin KLyslysin LLeuleucin MMetmethionin NAsnasparagin PProprolin QGlnglutamin RArgarginin SSerserin TThrthreonin VValvalin WTrptryptofan YTyrtyrosin BAsxasparagová kys. nebo asparagin ZGlxglutamová kys. nebo glutamin XXxxjakákoliv aminokyselina *---stop nukleotidyaminokyseliny IUB kódy
fasta >gi| |gb|AF |AF Mus musculus transcription factor PAX4 (Pax4) TGGCAGGACTGAAGCAGCTGGAGGCTGTTACAAGACCAGACCACCAGCAAACCCTGGAGCCTGCACAGGA CCCTGAGACCTCTTCCTGGAATTCCCACCTTTTTTCCTCCATCCAGAACCAGTCCCAAAGAGAAACTTCC AGAAGGAGCTCTCCGTTTTCAGTTTGCCAGTTGGCTTCCTGTCCTTCTGTGAGGAGTACCAGTGTGAAGC ATGCAGCAGGACGGACTCAGCAGTGTGAATCAGCTAGGGGGACTCTTTGTGAATGGCCGGCCCCTTCCTC TGGACACCAGGCAGCAGATTGTGCAGCTAGCAATAAGAGGGATGCGACCCTGTGACATTTCACGGAGCCT TAAGGTATCTAATGGCTGTGTGAGCAAGATCCTAGGACGCTACTACCGCACAGGTGTCTTGGAACCCAAG TGTATTGGGGGAAGCAAACCACGTCTGGCCACACCTGCTGTGGTGGCTCGAATTGCCCAGCTAAAGGATG AGTACCCTGCTCTTTTTGCCTGGGAGATCCAACACCAGCTTTGCACTGAAGGGCTTTGTACCCAGGACAA GGCTCCCAGTGTGTCCTCTATCAATCGAGTACTTCGGGCACTTCAGGAAGACCAGAGCTTGCACTGGACT CAACTCAGATCACCAGCTGTGTTGGCTCCAGTTCTTCCCAGTCCCCACAGTAACTGTGGGGCTCCCCGAG GCCCCCACCCAGGAACCAGCCACAGGAATCGGACTATCTTCTCCCCGGGACAAGCCGAGGCACTGGAGAA AGAGTTTCAGCGTGGGCAGTATCCAGATTCAGTGGCCCGTGGGAAGCTGGCTGCTGCCACCTCTCTGCCT GAAGACACGGTGAGGGTTTGGTTTTCTAACAGAAGAGCCAAATGGCGCAGGCAAGAGAAGCTGAAATGGG AAGCACAGCTGCCAGGTGCTTCCCAGGACCTGACAGTACCAAAAAATTCTCCAGGGATCATCTCTGCACA GCAGTCCCCCGGCAGTGTACCCTCAGCTGCCTTGCCTGTGCTGGAACCATTGAGTCCTTCCTTCTGTCAG CTATGCTGTGGGACAGCACCAGGCAGATGTTCCAGTGACACCTCATCCCAGGCCTATCTCCAACCCTACT GGGACTGCCAATCCCTCCTTCCTGTGGCTTCCTCCTCATATGTGGAATTTGCCTGGCCCTGCCTCACCAC CCATCCTGTGCATCATCTGATTGGAGGCCCAGGACAAGTGCCATCAACCCATTGCTCAAACTGGCCATAA GAGGCCTCTATTTGACAGTAATAAAAACCTTTTCTTAGATGTTAAAAAAAAAAAAAAAAAAAAAAAAAAA AAAAAAAAAAAAAAAAAAAAAAAAAAAAAA formáty sekvencí - FastA
Proč sekvence porovnáváme? Lokální vs. globální alignment. Jaká je pravděpodobnost (statistická významnost) alignmentu. Termíny: similarity (podobnost) homolog, paralog, ortholog alignment
Výchozí předpoklady: pozice jsou na sobě nezávislé pozice jsou rozdělené identicky jednonukleotidové frekvence: f A = A / N = p A Najít pattern Zjistit statistickou významnost výskytu hledaného patternu podmíněné dinukleotidové frekvence: p* AC = f AC / f A pattern (consenzus) search
p AYC pomocí podmíněných dinukleotidových frekvencí pro sekvenci CGTCAGCATT: f A = 0,2 = p A f G = 0,2 = p G f AG = 0,1f GC = 0,1 p* AG = f AG /f A = 0,5 p* GC = f GC /f A = 0,5 p* AA = p* AC = 0 p AYC = p A. (p* AA + p* AG ). (p* AC + p* GC ) = 0,05 p AYC pomocí jednonukleotidových frekvencí: p A = p C = p G = p T = 0,25 p AYC = p A. (p A + p G ). p C = 0,3125 statistický výpočet
PSI-BLAST HMMER SSEARCH BLITZ FASTA BLAST Pattern search Dot plot 1:1 n:n n ClustalW MultAlign 1:n typy alignmentů
dot plot
54268 CGGTCAGCCGGACCCGGACCACCACGGCAACGGGGCGCGATGTGGTGCGTCAGACCGCGCAGGCGATGGACGACATTGCCCGCAGCTCGGAACAGATCTCGCGCATCACCAGCGTCATCGACGAC ***** *** ****** ***** ** * ******** ******** * ** ********** ****** * ** ******** ***** ** *********** ************ CGGTCGGCCAGACCCGCGAGACCACCGCCGCCGGGCGCGAGGTGGTGCGCCGCACGCTGCAGGCGATGACCGACATCGCGCAAAGCTCGGAGCAGATTTCCCGCATCACCAGTGTCATCGACGAC dot plot
CGAATTGAGTAAGTCAAGGAGAGAAGAGACAGAGAGAGACAGATAGAAAAAAGAGAGGGAGAGAGAGAAAAAGAGAGATAGATA GGANAAAGAGAGAGAGACAGAGAAGGAGAGAGAGAGAGAAAGAGAGACAGAAGAGAGAGAGAGAGAGACAAAGAGAGAAAGAGA dot plot
data: TCATG a CATTG T C A T G : : C A T T G T C A T G. : : :. C A T T G T C A T - G : : : :. C A T T G T C A - T G : : : :. C A T T G porovnávání textových řetězců
formalizace problému Vezměme dvě sekvence a,b (nukleotidové či aminokyselinové) délky m,n: a = a 1,a 2,a 3.. a m b = b 1,b 2,b 3.. b n Chceme je porovnat mezi sebou a vytvořit alignment A, který sestává z řady párů A = (a i b j ).. (a k b l ) kde 1 i <.. < k m, 1 j <.. < l n Pro výpočet skóre alignmentu A přiřadíme každému páru hodnotu s(a i,b j ) (pozitivní nebo negativní) v závislosti na tom, zda se jedná o totožný, příbuzný nebo nepříbuzný pár. Skóre subalignmentu S i,j získáme jako maximální skóre předcházejících subalignmentů plus skóre páru s(a i,b j ) : S i,j = max ( S i-1,j, S i,j-1, S i-1,j-1 ) + s i,j Celkové skóre alignmentu je tak S = s(a i,b j ) pro i = 1..m, j = 1..n Hledání nejlepšího alignmentu je hledáním alignmentu s maximálním skóre ze všech možných alignmentů. pairwise alignment
GGACTCTTGGAAAGG G G A C T G G A A A G GGACTCTTGGAAAGG G G A1111 C11 T111 G G A1111 A1111 A1111 G scoring matrix parametry: match 1; mismatch 0 pairwise alignment
111111G 1111A 1111A 1111A G G 111T 11C 1111A G G GGAAAGGTTCTCAGG GGACTCTTGGAAAGG G G A C T G G A A A G sum matrix pairwise alignment
GGACTCTTGGAAAGG :::: : :::::: GGAC--T-GGAAAG- zpětné hledání pairwise alignment
Ohodnotíme mezery ("gaps") v alignmentu funkcí w x = y + zx pro x 0; y,z 0 kde x je délka mezery ("gap"). Parametr y bývá nazýván "open gap penalty" nebo "gap existence penalty", parametr z "gap extension penalty" nebo "per residue gap penalty". Skóre subalignmentu S i,j získáme z: S k,j - w i-k, pro k=1..i-1 S i,j = max ( S i-1,j-1 ) + s i,j S i,l - w j-l pro l=1..j-1 gaps - formalizace problému pairwise alignment
GGACTCTTGGAAAGG G G A C T G G A A A G scoring matrix parametry: match 2; mismatch -1 GGACTCTTGGAAAGG G G A C 2 2 T 2 22 G G A A A G pairwise alignment
sum matrix parametry: open gap -2 GGACTCTTGGAAAGG G G A C 2 2 T 2 22 G G A A A G GGACTCTTGGAAAGG G G A C T G G A A A G GGACTCTTGGAAAGG G G A C T G G A A A G pairwise alignment
sum matrix GGACTCTTGGAAAGG G G A C T G G A A A G GGACTCTTGGAAAGG G G A C T G G A A A G GGACTCTTGGAAAGG ::::: :::::: GGACT---GGAAAG- pairwise alignment
GGACTCTTGGAAAGG G G G A C T T G A A G G A T T G G A A A G G parametry: match: 2; mismatch: -1; gap: -2 GGACTCTTGGAAAGG G G G A C T T G A A G G A T T G G A A A G G pairwise alignment - možné problémy
jana.s CTCATGCGGTTGCAGAGCTTGAGGTCGGCGTGGGCGGCGGAGGTGAGGGCGAGGGTGGTGACAATGGCGGCGAGGGCGCGCGATCTCCACCCCGTCATGC :::::::::::::: ::::::::::::::::: :: ::::::::::::: ::: ::::::::::::: :::::::::::: :::::::: :::::::::: Contig CTCATGCGGTTGCACAGCTTGAGGTCGGCGTGAGCCGCGGAGGTGAGGGAGAGAGTGGTGACAATGGTGGCGAGGGCGCGTGATCTCCAGCCCGTCATGC jana.s CCGGCCTTGTGCCGGGCAT CCACGTCTTGCTGAGAAAACCGCCGGAAAGACGTGGATGGCCGGGACGAGCCCGGCCATGACGGAT ::::::::::::::::::: ::::::::::::::: :::::::::::::::::::::::::::::::::::::::::::::::::: Contig CCGGCCTTGTGCCGGGCATCCACGTCTTGCTGATCCACGTCTTGCTGAGGAAACCGCCGGAAAGACGTGGATGGCCGGGACGAGCCCGGCCATGACGGAT jana.s GTTGTCGCCGCAGCCTCGCATCACTTGTGGATCAGCGTGCCGGTGCCCTGGTTGGTGAACAATTCGAGCAGCACTGCGTGCGGGACCTTGCCGTCGAGGA ::: ::::::: ::: ::::::::::::::::::::::::::::::::::::::::::::: :::::::::::::::::::::::::::::::::::::: Contig GTTATCGCCGCCGCCCCGCATCACTTGTGGATCAGCGTGCCGGTGCCCTGGTTGGTGAACAGTTCGAGCAGCACTGCGTGCGGGACCTTGCCGTCGAGGA jana.- ---TGCCG-TTG--GAATCGACCCCGATCGCCGTCTCGACCACGTAGCTCATGCGGTTGCAGAGCTTGAGGTCGGCGTGGGCGGCGGAGGTGAGGGCGAG ::: ::: : :::::: :: : :: :: : :::: :: ::: : :: :::: : ::: :: : :::: :: :: Contig CCACCCCGATTGCCGTCTCGACCACG-TAGCTCATGCGGTTGCACAGCT--TGAGGTCG----GCGTGAG--CCGCGGAGGTGAGGGAGAGAGTGGTGAC jana.- GGTGGTGACAATGGCG-GCGAGGGC--GCGCGATCTCCACCCCGTCATGCCCGG---CCTTGTGCCGGGCATCCACGTCTTGCTGAGAAAACCGCCGGAA ::::: : : :::: : :: : :: :: : : : : : :::: :: :: :: : ::::::::::::::::: :::::::::::: Contig AATGGTGGCGAGGGCGCGTGATCTCCAGCCCGTCATGCCCGGCCTTGTGCCGGGCATCCACGTCTTGCTGATCCACGTCTTGCTGAGGAAACCGCCGGAA jana.- AGACGTGGATGGCCGGGACGAGCCCGGCCATGACGGATGTTGTCGCCGCAGCCTCGCATCACTTGTGGATCAGCGTGCCGGTGCCCTGGTTGGTGAACAA ::::::::::::::::::::::::::::::::::::::::: ::::::: ::: ::::::::::::::::::::::::::::::::::::::::::::: Contig AGACGTGGATGGCCGGGACGAGCCCGGCCATGACGGATGTTATCGCCGCCGCCCCGCATCACTTGTGGATCAGCGTGCCGGTGCCCTGGTTGGTGAACAG pairwise alignment - možné problémy
TCAG TTTTPheTCTSerTATTyrTGTCysT TTCPheTCCSerTACTyrTGCCysC TTALeuTCASerTAAStopTGAStopA TTGLeuTCGSerTAGStopTGGTrpG CCTTLeuCCTProCATHisCGTArgT CTCLeuCCCProCACHisCGCArgC CTALeuCCAProCAAGlnCGAArgA CTGLeuCCGProCAGGlnCGGArgG AATTIleACTThrAATAsnAGTSerT ATCIleACCThrAACAsnAGCSerC ATAIleACAThrAAALysAGAArgA ATGMetACGThrAAGLysAGGArgG GGTTValGCTAlaGATAspGGTGlyT GTCValGCCAlaGACAspGGCGlyC GTAValGCAAlaGAAGluGGAGlyA GTGValGCGAlaGAGGluGGGGlyG TCAG TTTTPheTCTSerTATTyrTGTCysT TTCPheTCCSerTACTyrTGCCysC TTALeuTCASerTAAStopTGAStopA TTGLeuTCGSerTAGStopTGGTrpG CCTTLeuCCTProCATHisCGTArgT CTCLeuCCCProCACHisCGCArgC CTALeuCCAProCAAGlnCGAArgA CTGLeuCCGProCAGGlnCGGArgG AATTIleACTThrAATAsnAGTSerT ATCIleACCThrAACAsnAGCSerC ATAIleACAThrAAALysAGAArgA ATGMetACGThrAAGLysAGGArgG GGTTValGCTAlaGATAspGGTGlyT GTCValGCCAlaGACAspGGCGlyC GTAValGCAAlaGAAGluGGAGlyA GTGValGCGAlaGAGGluGGGGlyG genetický kód
PAM (Percent Accepted Mutation) 1 PAM = jedna mutace na cestě mezi dvěma sekvencemi na 100 nukleotidů Princip: proteiny se vyvíjejí pomocí nezávislých mutací a jsou fixovány postupně BLOSSUM substitution matrix
300 mil. let PAM 300 PAM mil. let 250 mil. let PAM 100 PAM 250 substitution matrix
# Entropy = , Expected = A R N D C Q E G H I L K M F P S T W Y V B Z X * A R N D C Q E G H I L K M F P S T W Y V B Z X * R N D C W BLOSUM 45 substitution matrix
# Entropy = , Expected = A R N D C Q E G H I L K M F P S T W Y V B Z X * A R N D C Q E G H I L K M F P S T W Y V B Z X * BLOSUM 62 R N D C W substitution matrix
WRNDCW PAM PAM PAM BLOSUM BLOSUM BLOSUM substitution matrix