Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Jan Pačes Ústav molekulární genetiky Jiří Vondrášek Ústav organické chemie a biochemie Alignment I

Podobné prezentace


Prezentace na téma: "Jan Pačes Ústav molekulární genetiky Jiří Vondrášek Ústav organické chemie a biochemie Alignment I"— Transkript prezentace:

1 Jan Pačes Ústav molekulární genetiky Jiří Vondrášek Ústav organické chemie a biochemie Alignment I Bioinformatika pro PfUK 2002

2 kódnukleotidykomplement AAT CCG GGC TTA (UU)A MACK RAGY WATS SCGW YCTR KGTM VACGB HACTD DAGTH BCGTV NACGTN -mezera- kódtřípísmenný kódaminokyselina AAlaalanin CCyscystein DAspasparagová kyselina GGluglutamová kyselina HHishistidin IIleisoleucin KLyslysin LLeuleucin MMetmethionin NAsnasparagin PProprolin QGlnglutamin RArgarginin SSerserin TThrthreonin VValvalin WTrptryptofan YTyrtyrosin BAsxasparagová kys. nebo asparagin ZGlxglutamová kys. nebo glutamin XXxxjakákoliv aminokyselina *---stop nukleotidyaminokyseliny IUB kódy

3 fasta >gi| |gb|AF |AF Mus musculus transcription factor PAX4 (Pax4) TGGCAGGACTGAAGCAGCTGGAGGCTGTTACAAGACCAGACCACCAGCAAACCCTGGAGCCTGCACAGGA CCCTGAGACCTCTTCCTGGAATTCCCACCTTTTTTCCTCCATCCAGAACCAGTCCCAAAGAGAAACTTCC AGAAGGAGCTCTCCGTTTTCAGTTTGCCAGTTGGCTTCCTGTCCTTCTGTGAGGAGTACCAGTGTGAAGC ATGCAGCAGGACGGACTCAGCAGTGTGAATCAGCTAGGGGGACTCTTTGTGAATGGCCGGCCCCTTCCTC TGGACACCAGGCAGCAGATTGTGCAGCTAGCAATAAGAGGGATGCGACCCTGTGACATTTCACGGAGCCT TAAGGTATCTAATGGCTGTGTGAGCAAGATCCTAGGACGCTACTACCGCACAGGTGTCTTGGAACCCAAG TGTATTGGGGGAAGCAAACCACGTCTGGCCACACCTGCTGTGGTGGCTCGAATTGCCCAGCTAAAGGATG AGTACCCTGCTCTTTTTGCCTGGGAGATCCAACACCAGCTTTGCACTGAAGGGCTTTGTACCCAGGACAA GGCTCCCAGTGTGTCCTCTATCAATCGAGTACTTCGGGCACTTCAGGAAGACCAGAGCTTGCACTGGACT CAACTCAGATCACCAGCTGTGTTGGCTCCAGTTCTTCCCAGTCCCCACAGTAACTGTGGGGCTCCCCGAG GCCCCCACCCAGGAACCAGCCACAGGAATCGGACTATCTTCTCCCCGGGACAAGCCGAGGCACTGGAGAA AGAGTTTCAGCGTGGGCAGTATCCAGATTCAGTGGCCCGTGGGAAGCTGGCTGCTGCCACCTCTCTGCCT GAAGACACGGTGAGGGTTTGGTTTTCTAACAGAAGAGCCAAATGGCGCAGGCAAGAGAAGCTGAAATGGG AAGCACAGCTGCCAGGTGCTTCCCAGGACCTGACAGTACCAAAAAATTCTCCAGGGATCATCTCTGCACA GCAGTCCCCCGGCAGTGTACCCTCAGCTGCCTTGCCTGTGCTGGAACCATTGAGTCCTTCCTTCTGTCAG CTATGCTGTGGGACAGCACCAGGCAGATGTTCCAGTGACACCTCATCCCAGGCCTATCTCCAACCCTACT GGGACTGCCAATCCCTCCTTCCTGTGGCTTCCTCCTCATATGTGGAATTTGCCTGGCCCTGCCTCACCAC CCATCCTGTGCATCATCTGATTGGAGGCCCAGGACAAGTGCCATCAACCCATTGCTCAAACTGGCCATAA GAGGCCTCTATTTGACAGTAATAAAAACCTTTTCTTAGATGTTAAAAAAAAAAAAAAAAAAAAAAAAAAA AAAAAAAAAAAAAAAAAAAAAAAAAAAAAA formáty sekvencí - FastA

4 Proč sekvence porovnáváme? Lokální vs. globální alignment. Jaká je pravděpodobnost (statistická významnost) alignmentu. Termíny: similarity (podobnost) homolog, paralog, ortholog alignment

5 Výchozí předpoklady: pozice jsou na sobě nezávislé pozice jsou rozdělené identicky jednonukleotidové frekvence: f A = A /  N = p A Najít pattern Zjistit statistickou významnost výskytu hledaného patternu podmíněné dinukleotidové frekvence: p* AC = f AC / f A pattern (consenzus) search

6 p AYC pomocí podmíněných dinukleotidových frekvencí pro sekvenci CGTCAGCATT: f A = 0,2 = p A f G = 0,2 = p G f AG = 0,1f GC = 0,1 p* AG = f AG /f A = 0,5 p* GC = f GC /f A = 0,5 p* AA = p* AC = 0 p AYC = p A. (p* AA + p* AG ). (p* AC + p* GC ) = 0,05 p AYC pomocí jednonukleotidových frekvencí: p A = p C = p G = p T = 0,25 p AYC = p A. (p A + p G ). p C = 0,3125 statistický výpočet

7 PSI-BLAST HMMER SSEARCH BLITZ FASTA BLAST Pattern search Dot plot 1:1 n:n n ClustalW MultAlign 1:n typy alignmentů

8 dot plot

9

10 54268 CGGTCAGCCGGACCCGGACCACCACGGCAACGGGGCGCGATGTGGTGCGTCAGACCGCGCAGGCGATGGACGACATTGCCCGCAGCTCGGAACAGATCTCGCGCATCACCAGCGTCATCGACGAC ***** *** ****** ***** ** * ******** ******** * ** ********** ****** * ** ******** ***** ** *********** ************ CGGTCGGCCAGACCCGCGAGACCACCGCCGCCGGGCGCGAGGTGGTGCGCCGCACGCTGCAGGCGATGACCGACATCGCGCAAAGCTCGGAGCAGATTTCCCGCATCACCAGTGTCATCGACGAC dot plot

11 CGAATTGAGTAAGTCAAGGAGAGAAGAGACAGAGAGAGACAGATAGAAAAAAGAGAGGGAGAGAGAGAAAAAGAGAGATAGATA GGANAAAGAGAGAGAGACAGAGAAGGAGAGAGAGAGAGAAAGAGAGACAGAAGAGAGAGAGAGAGAGACAAAGAGAGAAAGAGA dot plot

12 data: TCATG a CATTG T C A T G : : C A T T G T C A T G. : : :. C A T T G T C A T - G : : : :. C A T T G T C A - T G : : : :. C A T T G porovnávání textových řetězců

13 formalizace problému Vezměme dvě sekvence a,b (nukleotidové či aminokyselinové) délky m,n: a = a 1,a 2,a 3.. a m b = b 1,b 2,b 3.. b n Chceme je porovnat mezi sebou a vytvořit alignment A, který sestává z řady párů A = (a i b j ).. (a k b l ) kde 1  i <.. < k  m, 1  j <.. < l  n Pro výpočet skóre alignmentu A přiřadíme každému páru hodnotu s(a i,b j ) (pozitivní nebo negativní) v závislosti na tom, zda se jedná o totožný, příbuzný nebo nepříbuzný pár. Skóre subalignmentu S i,j získáme jako maximální skóre předcházejících subalignmentů plus skóre páru s(a i,b j ) : S i,j = max ( S i-1,j, S i,j-1, S i-1,j-1 ) + s i,j Celkové skóre alignmentu je tak S =  s(a i,b j ) pro i = 1..m, j = 1..n Hledání nejlepšího alignmentu je hledáním alignmentu s maximálním skóre ze všech možných alignmentů. pairwise alignment

14 GGACTCTTGGAAAGG G G A C T G G A A A G GGACTCTTGGAAAGG G G A1111 C11 T111 G G A1111 A1111 A1111 G scoring matrix parametry: match 1; mismatch 0 pairwise alignment

15 111111G 1111A 1111A 1111A G G 111T 11C 1111A G G GGAAAGGTTCTCAGG GGACTCTTGGAAAGG G G A C T G G A A A G sum matrix pairwise alignment

16 GGACTCTTGGAAAGG :::: : :::::: GGAC--T-GGAAAG- zpětné hledání pairwise alignment

17 Ohodnotíme mezery ("gaps") v alignmentu funkcí w x = y + zx pro x  0; y,z  0 kde x je délka mezery ("gap"). Parametr y bývá nazýván "open gap penalty" nebo "gap existence penalty", parametr z "gap extension penalty" nebo "per residue gap penalty". Skóre subalignmentu S i,j získáme z: S k,j - w i-k, pro k=1..i-1 S i,j = max ( S i-1,j-1 ) + s i,j S i,l - w j-l pro l=1..j-1 gaps - formalizace problému pairwise alignment

18 GGACTCTTGGAAAGG G G A C T G G A A A G scoring matrix parametry: match 2; mismatch -1 GGACTCTTGGAAAGG G G A C 2 2 T 2 22 G G A A A G pairwise alignment

19 sum matrix parametry: open gap -2 GGACTCTTGGAAAGG G G A C 2 2 T 2 22 G G A A A G GGACTCTTGGAAAGG G G A C T G G A A A G GGACTCTTGGAAAGG G G A C T G G A A A G pairwise alignment

20 sum matrix GGACTCTTGGAAAGG G G A C T G G A A A G GGACTCTTGGAAAGG G G A C T G G A A A G GGACTCTTGGAAAGG ::::: :::::: GGACT---GGAAAG- pairwise alignment

21 GGACTCTTGGAAAGG G G G A C T T G A A G G A T T G G A A A G G parametry: match: 2; mismatch: -1; gap: -2 GGACTCTTGGAAAGG G G G A C T T G A A G G A T T G G A A A G G pairwise alignment - možné problémy

22 jana.s CTCATGCGGTTGCAGAGCTTGAGGTCGGCGTGGGCGGCGGAGGTGAGGGCGAGGGTGGTGACAATGGCGGCGAGGGCGCGCGATCTCCACCCCGTCATGC :::::::::::::: ::::::::::::::::: :: ::::::::::::: ::: ::::::::::::: :::::::::::: :::::::: :::::::::: Contig CTCATGCGGTTGCACAGCTTGAGGTCGGCGTGAGCCGCGGAGGTGAGGGAGAGAGTGGTGACAATGGTGGCGAGGGCGCGTGATCTCCAGCCCGTCATGC jana.s CCGGCCTTGTGCCGGGCAT CCACGTCTTGCTGAGAAAACCGCCGGAAAGACGTGGATGGCCGGGACGAGCCCGGCCATGACGGAT ::::::::::::::::::: ::::::::::::::: :::::::::::::::::::::::::::::::::::::::::::::::::: Contig CCGGCCTTGTGCCGGGCATCCACGTCTTGCTGATCCACGTCTTGCTGAGGAAACCGCCGGAAAGACGTGGATGGCCGGGACGAGCCCGGCCATGACGGAT jana.s GTTGTCGCCGCAGCCTCGCATCACTTGTGGATCAGCGTGCCGGTGCCCTGGTTGGTGAACAATTCGAGCAGCACTGCGTGCGGGACCTTGCCGTCGAGGA ::: ::::::: ::: ::::::::::::::::::::::::::::::::::::::::::::: :::::::::::::::::::::::::::::::::::::: Contig GTTATCGCCGCCGCCCCGCATCACTTGTGGATCAGCGTGCCGGTGCCCTGGTTGGTGAACAGTTCGAGCAGCACTGCGTGCGGGACCTTGCCGTCGAGGA jana.- ---TGCCG-TTG--GAATCGACCCCGATCGCCGTCTCGACCACGTAGCTCATGCGGTTGCAGAGCTTGAGGTCGGCGTGGGCGGCGGAGGTGAGGGCGAG ::: ::: : :::::: :: : :: :: : :::: :: ::: : :: :::: : ::: :: : :::: :: :: Contig CCACCCCGATTGCCGTCTCGACCACG-TAGCTCATGCGGTTGCACAGCT--TGAGGTCG----GCGTGAG--CCGCGGAGGTGAGGGAGAGAGTGGTGAC jana.- GGTGGTGACAATGGCG-GCGAGGGC--GCGCGATCTCCACCCCGTCATGCCCGG---CCTTGTGCCGGGCATCCACGTCTTGCTGAGAAAACCGCCGGAA ::::: : : :::: : :: : :: :: : : : : : :::: :: :: :: : ::::::::::::::::: :::::::::::: Contig AATGGTGGCGAGGGCGCGTGATCTCCAGCCCGTCATGCCCGGCCTTGTGCCGGGCATCCACGTCTTGCTGATCCACGTCTTGCTGAGGAAACCGCCGGAA jana.- AGACGTGGATGGCCGGGACGAGCCCGGCCATGACGGATGTTGTCGCCGCAGCCTCGCATCACTTGTGGATCAGCGTGCCGGTGCCCTGGTTGGTGAACAA ::::::::::::::::::::::::::::::::::::::::: ::::::: ::: ::::::::::::::::::::::::::::::::::::::::::::: Contig AGACGTGGATGGCCGGGACGAGCCCGGCCATGACGGATGTTATCGCCGCCGCCCCGCATCACTTGTGGATCAGCGTGCCGGTGCCCTGGTTGGTGAACAG pairwise alignment - možné problémy

23 TCAG TTTTPheTCTSerTATTyrTGTCysT TTCPheTCCSerTACTyrTGCCysC TTALeuTCASerTAAStopTGAStopA TTGLeuTCGSerTAGStopTGGTrpG CCTTLeuCCTProCATHisCGTArgT CTCLeuCCCProCACHisCGCArgC CTALeuCCAProCAAGlnCGAArgA CTGLeuCCGProCAGGlnCGGArgG AATTIleACTThrAATAsnAGTSerT ATCIleACCThrAACAsnAGCSerC ATAIleACAThrAAALysAGAArgA ATGMetACGThrAAGLysAGGArgG GGTTValGCTAlaGATAspGGTGlyT GTCValGCCAlaGACAspGGCGlyC GTAValGCAAlaGAAGluGGAGlyA GTGValGCGAlaGAGGluGGGGlyG TCAG TTTTPheTCTSerTATTyrTGTCysT TTCPheTCCSerTACTyrTGCCysC TTALeuTCASerTAAStopTGAStopA TTGLeuTCGSerTAGStopTGGTrpG CCTTLeuCCTProCATHisCGTArgT CTCLeuCCCProCACHisCGCArgC CTALeuCCAProCAAGlnCGAArgA CTGLeuCCGProCAGGlnCGGArgG AATTIleACTThrAATAsnAGTSerT ATCIleACCThrAACAsnAGCSerC ATAIleACAThrAAALysAGAArgA ATGMetACGThrAAGLysAGGArgG GGTTValGCTAlaGATAspGGTGlyT GTCValGCCAlaGACAspGGCGlyC GTAValGCAAlaGAAGluGGAGlyA GTGValGCGAlaGAGGluGGGGlyG genetický kód

24 PAM (Percent Accepted Mutation) 1 PAM = jedna mutace na cestě mezi dvěma sekvencemi na 100 nukleotidů Princip: proteiny se vyvíjejí pomocí nezávislých mutací a jsou fixovány postupně BLOSSUM substitution matrix

25 300 mil. let PAM 300 PAM mil. let 250 mil. let PAM 100 PAM 250 substitution matrix

26 # Entropy = , Expected = A R N D C Q E G H I L K M F P S T W Y V B Z X * A R N D C Q E G H I L K M F P S T W Y V B Z X * R N D C W BLOSUM 45 substitution matrix

27 # Entropy = , Expected = A R N D C Q E G H I L K M F P S T W Y V B Z X * A R N D C Q E G H I L K M F P S T W Y V B Z X * BLOSUM 62 R N D C W substitution matrix

28 WRNDCW PAM PAM PAM BLOSUM BLOSUM BLOSUM substitution matrix


Stáhnout ppt "Jan Pačes Ústav molekulární genetiky Jiří Vondrášek Ústav organické chemie a biochemie Alignment I"

Podobné prezentace


Reklamy Google