Osnova 1. Bioinformatická data 1.1. Makromolekuly 1.2. Od DNA k proteinu 1.3. Proteiny 1.4. Databáze 2. Strojové učení v bioinformatice 2.1. Motivace 2.2. Význam řešení a jeho obtížnost 2.3. Oblasti aplikace 3. Příklady problémů 3.1. Sekvence nukleotidů - identifikace genů 3.2. Proteinové sekvence 3.3. Identifikace významných míst ve struktuře proteinů 3.4. Klasifikace proteinů 3.5. Principy proteinových struktur 3.6. Aminokyselinová záměna 3.7. Analýza experimentálních dat
1.1. Makromolekuly nukleové kyselinyCTGCTGCTCTCCGGGGCCACGGCCACCGCTGC proteinyMNVLDSFINYYDSEKHAENAVIFLHGN kombinace – ribozom (RNA + protein), glykoproteiny (sacharid + protein)
1.2. Od DNA k proteinu DNA – „dlouhodobé úložiště návodu na život“ RNA – „aktuálně vykonávaná instrukce“ proteiny – zajišťují většinu chemie, regulace a část struktury
1.2. Od DNA k proteinu - geny regulační úseky kódující část
1.3. Protein se skládají z aminokyselin (AA)
1.3. Sekvence proteinu MSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCAGLG RLIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVVHDWGS ALGFDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRSQAGEELVLQD NVFVEQVLPGLILRPLSEAEMAAYREPFLAAGEARRPTLSWPRQIPIAGTPADVVAIA RDYAGWLSESPIPKLFINAEPGALTTGRMRDFCRTWPNQTEITVAGAHFIQEDSPD EIGAAIAAFVRRLRPA
1.3. Struktura proteinu páteř atomypovrch
1.3. Úrovně struktury Primární - sekvenceSekundární KvarterníTerciární – topologie, souřadnice
1.4. Bioinformatická data - databáze sekvence genomické 1 proteinové 2 RNA struktury proteiny 3 RNA funkce mutace interakce molekul, regulace, metabolické dráhy databáze naměřených hodnot
1.5. Co si odnést z úvodu DNA 4 nukleotidy: a, c, g, t sekvence: gcatctcctggtaagcacatat gen – plán pro výrobu proteinů genom organismu tisíce až miliardy nukleotidů stovky až desítky tisíc genů protein z 20 druhů aminokyselin délka cca 100 – 400 aminokyselin sekvence: MLDAKQDCAWAYTLKGP struktura
2.1. Strojové učení v bioinformatice - motivace přesný výpočet není možný čas nedostatek informací biomolekuly a jejich interakce jsou složité je jich hodně databáze jsou volně dostupné sekvence >> struktura >> funkce pro 180 organismů známe sekvenci celého genomu proteinových sekvencí proteinových struktur
2.1. Nárůst proteinových sekvencí
2.1. Nárůst proteinových struktur
2.2. Význam řešení a jeho obtížnost Význam řešení základní výzkum praktická využitelnost obecné nástroje přesná předpověď pro malou komunit Obtížnost řešení náročné předzpracování integrace výpočetních nástrojů volba algoritmu jen při nových problémech výběr atributů měření složení sekvence
2.3. Oblasti aplikace ML v bioinformatice 1 genomika hledání genů (proteinové, RNA) regulační elementy určování funkce genu „dodatečné úpravy genů“ analýza mutací P. Larrañaga et al. (2006) Machine learning in bioinformatics
2.3. Oblasti aplikace ML v bioinformatice 2 proteomika klasifikace struktur určování funkce (Gene Ontology, Enzyme Commission number) určování polohy v buňce predikce struktury (lokální, hodnocení kvality předpovědi, podle podobnosti) hodnocení komplexu protein – malá molekula hodnocení komplexu protein – protein predikce chování proteinu (stabilita, rozpustnost, alergenicita) P. Larrañaga et al. (2006) Machine learning in bioinformatics
2.3. Oblasti aplikace ML v bioinformatice 3 systémová biologie biologické sítě (metabolické dráhy, regulace genové exprese, mezibuněčná signalizace) grafy protein – proteinových interakcí vlastnosti malých molekul (chemoinformatika) biologická aktivita obecně aktivita vzhledem k cílové makromolekule experimentální data zpracování obrazu vyhodnocení mnohorozměrných dat (rozlišení normálních a rakovinné tkáně) – microarrays, hmotnostní spektrometrie indukce genových regulačních sítí - microarrays dolování znalostí z textu
3. Příklady problémů
3.1. Sekvence nukleotidů – identifikace genů význam přečteného genomu GISMO 1 identifikace sekvencí kódujících proteiny identifikace známých domén – trénovací sada pozitivní: úseky se sekvencí velmi podobnou profilu domény negativní: ve stínu, s překryvem víc než 90 bp SVM frekvence oligonukleotidů délky 3-9 (aaa, aac,..., ttt) frekvence aminokyselin a jejich dvojic (AA, AC,... YY) senzitivita = 94,3 % specificita = 94,3 % 1 Krause et. al (2007) GISMO—gene identification using a support vector machine for ORF classification
3.2. Proteinové sekvence (sekvence, pozice) třída (sekvence, pozice) reálné číslo Jak převést sekvenci na atributy? frekvence výskytu slov v okolí pozice (AA, AC, AD,..., YY) pohyblivé okno predikce vlastnosti pro pozici uprostřed WARCKQMNVLDSFIN
3.2. Neuronové sítě a sekvence
3.2. Sekundární struktura (SS) – úvod lokální uspořádání aminokyselin geometrie vodíkové můstky H: -šroubovice E: -list C: neuspořádaná samotný segment není stabilní přesto je sekvence pro typ SS typická
3.2. Sekundární struktura – PSIPRED PSIPRED 1 dvojice neuronových sítí vstup: sekvence předzpracování: profil příbuzných sekvencí výstup: posloupnost C, H, E WARCKQMNVLDSFINYYDSEKHAENAVIFLHGNAASSYLW CCCEEEEEECCEEEEEEECCCCCCCEEEEECCCCCCHHHH
3.2. PSIPRED – profil (PSI-BLAST PSSM) ARNDCQEGHILKMFPSTWYV
3.2. PSIPRED – 1. neuronová síť okno 15-ti aminokyselin 15x21 vstupů (20 AA + začátek nebo konec) 75 neuronů skryté vrstvy 3 výstupní neurony (C, H, E) (0.2, 0.9, 0.1) – pravděpodobně H (šroubovice)
3.2. PSIPRED – 2. neuronová síť okno 15-ti predikovaných SS 15x4 vstupů (3 výstupy 1. sítě + začátek nebo konec) 60 neuronů skryté vrstvy 3 výstupní neurony odvození konečné predikce C, H, E a její důvěryhodnosti CHE 10,10,90,2 2 0,90,2 30,30,70,1 40,40,50,0 50,60,2 60,80,40,3 70,80,10,4 81,00,10,0 90,90,30,1 100,80,40,3 110,40,80,1 120,80,50,2 130,20,90,0 140,10,3 150,10,6 WARCKQMNVLDSFINYYDSEKHAENAVIFLHG CCCEEEEEECCEEEEEEECCCCCCCEEEEECC
3.2. PSIPRED – testování 3-násobné křížové ověření trénovací sada nesmí obsahovat sekvence příbuzné těm z testovací Q 3 = 76 (±7,8) % Sov 3 = 73,5 (±12,7) %
3.2. PSIPRED – úspěšnost jednoduchá online CASP3 1998
3.2. SS – speciální situace sekvence + cirkulární dichroizmus (CD) SS pozic struktura + změny sekvence + výsledné CD změny SS pozic predikce pouze proteiny složené pouze z alfa šroubovic
3.2. Další strukturní charakteristiky sekvence accessible surface area (ASA) membránové úseky využití predikce struktury ze sekvence predikce důsledku aminokyselinové záměny (náhrada struktury) hledání sekvencí podobných struktuře
3.2. Využití SS a ASA – predikce struktury
3.3. Identifikace významných míst ve struktuře proteinů které aminokyseliny jsou fosforylovány glykosylovány místem proteolytického štěpení katalytické interagují s DNA, RNA, jiným proteinem (struktura proteinu, pozice) atributy třída většinou lze odvozovat i z pouhé sekvence
3.4. Klasifikace proteinů vstup: sekvence struktura předzpracování: stažení informací z databáze hledání příbuzných proteinů výpočty celkové (volná energie) pro pozice (evoluční konzervovanost) výstup: třída (lokalizace v buňce, topologie, funkce)
3.5. Principy proteinových struktur struktura proteinu souřadnice všech atomů strukturu neumíme předpovědět přesně topologie: uspořádání sekundárních elementů v sekvenci vzájemná poloha ve struktuře klasifikace úspěšné topologie klasifikace proteinových struktur podle topologie – SCOP 1 1 A. G. Murzin et al.: SCOP
3.5. Objevování strukturních principů proteinů klasifikace nových struktur podle topologie (fold) popis druhu topologie TIM barel (SCOP): contains parallel -sheet barrel, closed; n = 8; S = 8; strand order Dokážeme definice generovat automaticky 1 ? 1 Cootes, Muggleton, Sternberg (2003) The Automatic Discovery of Structural Principles Describing Protein Fold Space
3.5. Topologie proteinů – znalostní báze a příklady induktivní logické programování, Progol znalostní báze protein p1 má 9 -šroubovic protein p1 má skládaný list složený z 8 - segmentů protein p1 má -šroubovici na pozici 2 který se dotýká -segmentu na pozic příklady protein p1 je tim_barel protein p1 není globin protein p1 není rossman
3.5. Topologie proteinů - učení Progol buduje pravidla komprese pravidla f = p - n - c p – pozitivní příklady pokryté pravidlem n – negativní příklady pokryté pravidlem c – délka pravidla najdi pravidlo s maximální kompresí vymaž pozitivní příklady pokryté pravidlem opakuj se zbytkem pozitivních příkladů
3.5. Topologie proteinů - výsledky učeno 45 topologií Q = 97 % (oproti 95 %) precision 77 % recall 55 % 10 topologií s největším počtem pozitivních příkladů: precision 83 % recall 69 %
3.5. Fold - imunoglobulinový fold SCOP: Sandwich; seven strands in two sheets; greek-key; some members of the fold have additional strands ILP: Has antiparallel sheets B and C; B has three strands, topology 123; C has four strands, topology 2134
3.5. Fold - Rossmanův fold SCOP: Core: three layers, / / ; parallel -sheet of six strands, order ILP: Has between three and four helices; Has -helix B as the second core element in the sequence; B contains a glycine residue in both its middle and N- terminal regionsOR Has a parallel sheet B of six strands with topology ; Has -helices C and D as the seventh and the ninth core elements in the sequence respectively; C and D are in contact and parallel
3.6. Důsledek aminokyselinové záměny (AAS) variabilita genotypu cca 1 % změna nukleotidu může vyvolat aminokyselinovou substituci (AAS) AAS vyvolá změna funkce proteinu většina je neutrálních, ale některé mohou změnit funkci proteinu a tím i fenotyp organizmu LMLVLALYDYQEKSPREVTMKKGDILTLLNSTNKDAWKVEVNDRQGFVPAAYVKKLD LMLVLALYDYQEKSPREVTMKKGDILTLLNSTNKDWWKVEVNDRQGFVPAAYVKKLD Je daná AAS spojena s vyšším rizikem onemocnění?
3.6. Důsledek mutace – proč ML odlišné charakteristiky AAS se vztahem k její škodlivosti predikovaná změna volné energie proteinu evoluční konzervovanost frekvence výskytu AA v daném strukturním nebo sekvenčním kontextu přesný matematický model neexistuje velikost systému neznámé interakce aplikace prioritizace klinických studií proteinové inženýrství celogenomové analýzy
3.6. Důsledek mutace ze struktury AUTO-MUTE aminokyselina – bod, triangulace (Delaunay) atributy sklon AA vyskytovat se v daném prostředí identita 6 sousedních AA volný prostor v okolí (objem čtyřstěnů) poloha (povrch, pod povrchem, hluboko) sekundární struktura
3.6. AUTO-MUTE - výsledky 1790 lidských AAS nevyvážená sada: 458 neutral, 1332 disease associated Weka, vybrán náhodný les Q 2 = 76 % (20-fold) není nejlepší vyžaduje 6 sousedních aminokyselin úzký výběr atributů, přesnost půjde snadno zlepšit ale přichází s originální sadou atributů
3.6. SNAP 1 - data non-neutral: AAS s experimentálně prokázaným vlivem na funkci proteinu neutral: neutrálních + doplněno rozdíly mezi příbuznými proteiny příkladů sekvence (MLKDEQHAGL...) mutace (A54L) důsledek (non-neutral/neutral) 1 Yana Bromberg, Burkhard Rost (2007) SNAP: predict effect of non-synonymous polymorphisms on function
3.6. SNAP – atributy 1 vstup: sekvence (MALKRSD…), AAS (G54W) komplexní předzpracování: sekvenční okno šířky 21 aminokyselin predikovaná sekundární struktura predikovaný povrch dostupný rozpouštědlu změna vlastností AA (velikost, náboj) pravděpodobnost tripletů LMNLA: LMN, MNL, NLA vs. LMI, MIL, ILA
3.6. SNAP – atributy 2 vzorek podobných sekvencí (vícečetné zarovnání, PSSM) ARNDCQEGHILKMFPSTWYV
3.6. SNAP – neuronová síť neuronová síť trénovaná na AAS 137 vstupních, 45 skrytých uzlů, 2 výstupní deleterious / non-neutral 10 foldů, zakázaná sekvenční podobnost nad 21 % 8 pro učení 1 pro test zastavení 1 pro krosvalidaci
3.6. SNAP - výsledky Q 2 = 79 % Accuracy non-neutral = 76.3 ± 0.8 Accuracy neutral = 82.0 ± 2.4 Coverage non-neutral = 83.3 ± 1.0 Coverage neutral = 74.7 ± 2.2
3.7. Analýza experimentálních dat genová exprese (microarrays) hmotnostní spektrometrie – identifikace molekul Lancashire (2009) An introduction to artificial neural networks in bioinformatics-application to complex microarray and mass spectrometry datasets in cancer studies Assareh et al. (2007) A novel ensemble strategy for classification of prostate cancer protein mass spectra
4. Monografie Baldi P, Brunak S. Bioinformatics. The Machine Learning Approach. MIT Press Zhang Y, Rajapakse J C. Machine Learning in Bioinformatics. Wiley Durbin R, Eddy SR, Krogh A, et al. Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. Cambridge University Press Gary B Fogel, David W Corne. Evolutionary Computation in Bioinformatics. Morgan Kaufmann 2002.Artificial Intelligence and Heuristic Methods in Bioinformatics Volume 183, NATO Science Series: Computer and Systems Sciences Edited. NATO, In Higgins D, Taylor W (Eds.). Bioinformatics. Sequence, Structure, and Databanks. Oxford University Press In Husmeier D, Dybowski R, Roberts S (Eds.). Probabilistic Modeling in Bioinformatics and Medical Informatics. Springer Verlag 2005.Jagota A. Data Analysis and Classification for Bioinformatics. Bioinformatics by the Bay Press In Jiang T, Xu X, Zhang MQ (Eds.). Current Topics in Computational Molecular Biology. The MIT Press Pevzner PA. Computational Molecular Biology. An Algorithmic Approach. MIT Press In Schölkopf B, Tsuda K, Vert J-P (Eds.). Kernel Methods in Computational Biology. The MIT Press In Seiffert U, Jain LC, Schweizer P (Eds.). Bioinformatics Using Computational Intelligence Paradigms. Springer Verlag 2005.In Wang JTL, Zaki MJ, Toivonen HTT (Eds.), et al. Data Mining in Bioinformatics. Springer-Verlag Wu CH, McLarty JW. Neural Networks and Genome Identification Elsevier 2000.
4. Časopisy Bioinformatics BMC Bioinformatics Nucleic Acids Research Machine Learning Journal of Machine Learning Research IEEE Intelligent Systems Journal of Computer-Aided Molecular Design Journal of Molecular Biology Proteins Briefings in Bioinformatics
4. Tematická čísla časopisů Wu CH, McLarty JW. Neural Networks and Genome Identification Elsevier Larrañaga P, Menasalvas E, Peña JM, et al. Special issue in data mining in genomics and proteomics. Artificial Intelligence in Medicine Li J, Wong L, Yang Q. Special issue on data mining for bioinformatics. IEEE Intelligent Systems Ling CX, Noble WS, Yang Q. Special issue: Machine learning for bioinformatics-part 1. IEEE/ACM Transactions on Computational Biology and Bioinformatics 2005.