Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Osnova 1. Bioinformatická data 1.1. Makromolekuly 1.2. Od DNA k proteinu 1.3. Proteiny 1.4. Databáze 2. Strojové učení v bioinformatice 2.1. Motivace 2.2.

Podobné prezentace


Prezentace na téma: "Osnova 1. Bioinformatická data 1.1. Makromolekuly 1.2. Od DNA k proteinu 1.3. Proteiny 1.4. Databáze 2. Strojové učení v bioinformatice 2.1. Motivace 2.2."— Transkript prezentace:

1 Osnova 1. Bioinformatická data 1.1. Makromolekuly 1.2. Od DNA k proteinu 1.3. Proteiny 1.4. Databáze 2. Strojové učení v bioinformatice 2.1. Motivace 2.2. Význam řešení a jeho obtížnost 2.3. Oblasti aplikace 3. Příklady problémů 3.1. Sekvence nukleotidů - identifikace genů 3.2. Proteinové sekvence 3.3. Identifikace významných míst ve struktuře proteinů 3.4. Klasifikace proteinů 3.5. Principy proteinových struktur 3.6. Aminokyselinová záměna 3.7. Analýza experimentálních dat

2 1.1. Makromolekuly nukleové kyselinyCTGCTGCTCTCCGGGGCCACGGCCACCGCTGC proteinyMNVLDSFINYYDSEKHAENAVIFLHGN kombinace – ribozom (RNA + protein), glykoproteiny (sacharid + protein)

3 1.2. Od DNA k proteinu DNA – „dlouhodobé úložiště návodu na život“ RNA – „aktuálně vykonávaná instrukce“ proteiny – zajišťují většinu chemie, regulace a část struktury

4 1.2. Od DNA k proteinu - geny regulační úseky kódující část

5 1.3. Protein se skládají z aminokyselin (AA)

6 1.3. Sekvence proteinu MSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCAGLG RLIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVVHDWGS ALGFDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRSQAGEELVLQD NVFVEQVLPGLILRPLSEAEMAAYREPFLAAGEARRPTLSWPRQIPIAGTPADVVAIA RDYAGWLSESPIPKLFINAEPGALTTGRMRDFCRTWPNQTEITVAGAHFIQEDSPD EIGAAIAAFVRRLRPA

7 1.3. Struktura proteinu páteř atomypovrch

8 1.3. Úrovně struktury Primární - sekvenceSekundární KvarterníTerciární – topologie, souřadnice

9 1.4. Bioinformatická data - databáze sekvence genomické 1 proteinové 2 RNA struktury proteiny 3 RNA funkce mutace interakce molekul, regulace, metabolické dráhy databáze naměřených hodnot 1 www.ncbi.nlm.nih.gov/Genbank/ 2 www.uniprot.org 3 www.pdb.org

10 1.5. Co si odnést z úvodu DNA 4 nukleotidy: a, c, g, t sekvence: gcatctcctggtaagcacatat gen – plán pro výrobu proteinů genom organismu tisíce až miliardy nukleotidů stovky až desítky tisíc genů protein z 20 druhů aminokyselin délka cca 100 – 400 aminokyselin sekvence: MLDAKQDCAWAYTLKGP struktura

11 2.1. Strojové učení v bioinformatice - motivace přesný výpočet není možný čas nedostatek informací biomolekuly a jejich interakce jsou složité je jich hodně databáze jsou volně dostupné sekvence >> struktura >> funkce pro 180 organismů známe sekvenci celého genomu 7.000.000 proteinových sekvencí 50.000 proteinových struktur

12 2.1. Nárůst proteinových sekvencí

13 2.1. Nárůst proteinových struktur

14 2.2. Význam řešení a jeho obtížnost Význam řešení základní výzkum praktická využitelnost obecné nástroje přesná předpověď pro malou komunit Obtížnost řešení náročné předzpracování integrace výpočetních nástrojů volba algoritmu jen při nových problémech výběr atributů měření složení sekvence

15 2.3. Oblasti aplikace ML v bioinformatice 1 genomika hledání genů (proteinové, RNA) regulační elementy určování funkce genu „dodatečné úpravy genů“ analýza mutací P. Larrañaga et al. (2006) Machine learning in bioinformatics

16 2.3. Oblasti aplikace ML v bioinformatice 2 proteomika klasifikace struktur určování funkce (Gene Ontology, Enzyme Commission number) určování polohy v buňce predikce struktury (lokální, hodnocení kvality předpovědi, podle podobnosti) hodnocení komplexu protein – malá molekula hodnocení komplexu protein – protein predikce chování proteinu (stabilita, rozpustnost, alergenicita) P. Larrañaga et al. (2006) Machine learning in bioinformatics

17 2.3. Oblasti aplikace ML v bioinformatice 3 systémová biologie biologické sítě (metabolické dráhy, regulace genové exprese, mezibuněčná signalizace) grafy protein – proteinových interakcí vlastnosti malých molekul (chemoinformatika) biologická aktivita obecně aktivita vzhledem k cílové makromolekule experimentální data zpracování obrazu vyhodnocení mnohorozměrných dat (rozlišení normálních a rakovinné tkáně) – microarrays, hmotnostní spektrometrie indukce genových regulačních sítí - microarrays dolování znalostí z textu

18 3. Příklady problémů

19 3.1. Sekvence nukleotidů – identifikace genů význam přečteného genomu GISMO 1 identifikace sekvencí kódujících proteiny identifikace známých domén – trénovací sada pozitivní: úseky se sekvencí velmi podobnou profilu domény negativní: ve stínu, s překryvem víc než 90 bp SVM frekvence oligonukleotidů délky 3-9 (aaa, aac,..., ttt) frekvence aminokyselin a jejich dvojic (AA, AC,... YY) senzitivita = 94,3 % specificita = 94,3 % 1 Krause et. al (2007) GISMO—gene identification using a support vector machine for ORF classification

20 3.2. Proteinové sekvence (sekvence, pozice)  třída (sekvence, pozice)  reálné číslo Jak převést sekvenci na atributy? frekvence výskytu slov v okolí pozice (AA, AC, AD,..., YY) pohyblivé okno predikce vlastnosti pro pozici uprostřed WARCKQMNVLDSFIN

21 3.2. Neuronové sítě a sekvence

22 3.2. Sekundární struktura (SS) – úvod lokální uspořádání aminokyselin geometrie vodíkové můstky H:  -šroubovice E:  -list C: neuspořádaná samotný segment není stabilní přesto je sekvence pro typ SS typická

23 3.2. Sekundární struktura – PSIPRED PSIPRED 1 dvojice neuronových sítí vstup: sekvence předzpracování: profil příbuzných sekvencí výstup: posloupnost C, H, E WARCKQMNVLDSFINYYDSEKHAENAVIFLHGNAASSYLW CCCEEEEEECCEEEEEEECCCCCCCEEEEECCCCCCHHHH 6858999999668997799968987744429999999999 1 http://bioinf.cs.ucl.ac.uk/psipred/

24 3.2. PSIPRED – profil (PSI-BLAST PSSM) ARNDCQEGHILKMFPSTWYV 1 -2-3-20 -3-21260-3-2-21 2 -2 -3 -2 -3 -3-48 -4-3 3 -2-3-20 -3-21260-3-2-21 4 -2-2-2 -3 31-20-203-3-22 5 -4 -2-3-4-324 20 -21 60-20-3-2 6 -4 -2-3 -20 -3 7-2 -3 -2 -32 -23-3-2 27 8-3 -4-5-2 -3 -2-3-21-4-3 112-3 9-255-3010-3-40-3 -20-4-3 10-3 -3 -4-342 10 -33 11-260 -410-20-3-22-3-2 -3-2-3 120-20-3-2 6 -4 -2-3 -20 -3 13-2 -4 -2-3-4-324 20 -21 144-2 0 0-2-2 -210-3-20 15-201-300-28-3 -2-2-2-32

25 3.2. PSIPRED – 1. neuronová síť okno 15-ti aminokyselin 15x21 vstupů (20 AA + začátek nebo konec) 75 neuronů skryté vrstvy 3 výstupní neurony (C, H, E) (0.2, 0.9, 0.1) – pravděpodobně H (šroubovice)

26 3.2. PSIPRED – 2. neuronová síť okno 15-ti predikovaných SS 15x4 vstupů (3 výstupy 1. sítě + začátek nebo konec) 60 neuronů skryté vrstvy 3 výstupní neurony odvození konečné predikce C, H, E a její důvěryhodnosti CHE 10,10,90,2 2 0,90,2 30,30,70,1 40,40,50,0 50,60,2 60,80,40,3 70,80,10,4 81,00,10,0 90,90,30,1 100,80,40,3 110,40,80,1 120,80,50,2 130,20,90,0 140,10,3 150,10,6 WARCKQMNVLDSFINYYDSEKHAENAVIFLHG CCCEEEEEECCEEEEEEECCCCCCCEEEEECC 68589999996689977999689877444299

27 3.2. PSIPRED – testování 3-násobné křížové ověření trénovací sada nesmí obsahovat sekvence příbuzné těm z testovací Q 3 = 76 (±7,8) % Sov 3 = 73,5 (±12,7) %

28 3.2. PSIPRED – úspěšnost jednoduchá online CASP3 1998

29 3.2. SS – speciální situace sekvence + cirkulární dichroizmus (CD)  SS pozic struktura + změny sekvence + výsledné CD  změny SS pozic predikce pouze proteiny složené pouze z alfa šroubovic

30 3.2. Další strukturní charakteristiky sekvence accessible surface area (ASA) membránové úseky využití predikce struktury ze sekvence predikce důsledku aminokyselinové záměny (náhrada struktury) hledání sekvencí podobných struktuře

31 3.2. Využití SS a ASA – predikce struktury http://fold.it/portal/

32 3.3. Identifikace významných míst ve struktuře proteinů které aminokyseliny jsou fosforylovány glykosylovány místem proteolytického štěpení katalytické interagují s DNA, RNA, jiným proteinem (struktura proteinu, pozice)  atributy  třída většinou lze odvozovat i z pouhé sekvence

33 3.4. Klasifikace proteinů vstup: sekvence struktura předzpracování: stažení informací z databáze hledání příbuzných proteinů výpočty celkové (volná energie) pro pozice (evoluční konzervovanost) výstup: třída (lokalizace v buňce, topologie, funkce)

34 3.5. Principy proteinových struktur struktura proteinu souřadnice všech atomů strukturu neumíme předpovědět přesně topologie: uspořádání sekundárních elementů v sekvenci vzájemná poloha ve struktuře klasifikace úspěšné topologie klasifikace proteinových struktur podle topologie – SCOP 1 1 A. G. Murzin et al.: SCOP http://scop.berkeley.edu/

35 3.5. Objevování strukturních principů proteinů klasifikace nových struktur podle topologie (fold) popis druhu topologie TIM barel (SCOP): contains parallel  -sheet barrel, closed; n = 8; S = 8; strand order 12345678 Dokážeme definice generovat automaticky 1 ? 1 Cootes, Muggleton, Sternberg (2003) The Automatic Discovery of Structural Principles Describing Protein Fold Space

36 3.5. Topologie proteinů – znalostní báze a příklady induktivní logické programování, Progol znalostní báze protein p1 má 9  -šroubovic protein p1 má skládaný list složený z 8  - segmentů protein p1 má  -šroubovici na pozici 2 který se dotýká  -segmentu na pozic příklady protein p1 je tim_barel protein p1 není globin protein p1 není rossman

37 3.5. Topologie proteinů - učení Progol buduje pravidla komprese pravidla f = p - n - c p – pozitivní příklady pokryté pravidlem n – negativní příklady pokryté pravidlem c – délka pravidla najdi pravidlo s maximální kompresí vymaž pozitivní příklady pokryté pravidlem opakuj se zbytkem pozitivních příkladů

38 3.5. Topologie proteinů - výsledky učeno 45 topologií Q = 97 % (oproti 95 %) precision 77 % recall 55 % 10 topologií s největším počtem pozitivních příkladů: precision 83 % recall 69 %

39 3.5. Fold - imunoglobulinový fold SCOP: Sandwich; seven strands in two sheets; greek-key; some members of the fold have additional strands ILP: Has antiparallel sheets B and C; B has three strands, topology 123; C has four strands, topology 2134

40 3.5. Fold - Rossmanův fold SCOP: Core: three layers,  /  /  ; parallel  -sheet of six strands, order 321456 ILP: Has between three and four helices; Has  -helix B as the second core element in the sequence; B contains a glycine residue in both its middle and N- terminal regionsOR Has a parallel sheet B of six strands with topology 321456; Has  -helices C and D as the seventh and the ninth core elements in the sequence respectively; C and D are in contact and parallel

41 3.6. Důsledek aminokyselinové záměny (AAS) variabilita genotypu cca 1 % změna nukleotidu může vyvolat aminokyselinovou substituci (AAS) AAS vyvolá změna funkce proteinu většina je neutrálních, ale některé mohou změnit funkci proteinu a tím i fenotyp organizmu LMLVLALYDYQEKSPREVTMKKGDILTLLNSTNKDAWKVEVNDRQGFVPAAYVKKLD LMLVLALYDYQEKSPREVTMKKGDILTLLNSTNKDWWKVEVNDRQGFVPAAYVKKLD Je daná AAS spojena s vyšším rizikem onemocnění?

42 3.6. Důsledek mutace – proč ML odlišné charakteristiky AAS se vztahem k její škodlivosti predikovaná změna volné energie proteinu evoluční konzervovanost frekvence výskytu AA v daném strukturním nebo sekvenčním kontextu přesný matematický model neexistuje velikost systému neznámé interakce aplikace prioritizace klinických studií proteinové inženýrství celogenomové analýzy

43 3.6. Důsledek mutace ze struktury AUTO-MUTE aminokyselina – bod, triangulace (Delaunay) atributy sklon AA vyskytovat se v daném prostředí identita 6 sousedních AA volný prostor v okolí (objem čtyřstěnů) poloha (povrch, pod povrchem, hluboko) sekundární struktura

44 3.6. AUTO-MUTE - výsledky 1790 lidských AAS nevyvážená sada: 458 neutral, 1332 disease associated Weka, vybrán náhodný les Q 2 = 76 % (20-fold) není nejlepší vyžaduje 6 sousedních aminokyselin úzký výběr atributů, přesnost půjde snadno zlepšit...... ale přichází s originální sadou atributů

45 3.6. SNAP 1 - data non-neutral: 40.641 AAS s experimentálně prokázaným vlivem na funkci proteinu neutral: 14.334 neutrálních + doplněno rozdíly mezi příbuznými proteiny 80.000 příkladů sekvence (MLKDEQHAGL...) mutace (A54L) důsledek (non-neutral/neutral) 1 Yana Bromberg, Burkhard Rost (2007) SNAP: predict effect of non-synonymous polymorphisms on function

46 3.6. SNAP – atributy 1 vstup: sekvence (MALKRSD…), AAS (G54W) komplexní předzpracování: sekvenční okno šířky 21 aminokyselin predikovaná sekundární struktura predikovaný povrch dostupný rozpouštědlu změna vlastností AA (velikost, náboj) pravděpodobnost tripletů LMNLA: LMN, MNL, NLA vs. LMI, MIL, ILA

47 3.6. SNAP – atributy 2 vzorek podobných sekvencí (vícečetné zarovnání, PSSM) ARNDCQEGHILKMFPSTWYV -2-3-20 -3-21260-3-2-21

48 3.6. SNAP – neuronová síť neuronová síť trénovaná na 80.000 AAS 137 vstupních, 45 skrytých uzlů, 2 výstupní deleterious / non-neutral 10 foldů, zakázaná sekvenční podobnost nad 21 % 8 pro učení 1 pro test zastavení 1 pro krosvalidaci

49 3.6. SNAP - výsledky Q 2 = 79 % Accuracy non-neutral = 76.3 ± 0.8 Accuracy neutral = 82.0 ± 2.4 Coverage non-neutral = 83.3 ± 1.0 Coverage neutral = 74.7 ± 2.2

50 3.7. Analýza experimentálních dat genová exprese (microarrays) hmotnostní spektrometrie – identifikace molekul Lancashire (2009) An introduction to artificial neural networks in bioinformatics-application to complex microarray and mass spectrometry datasets in cancer studies Assareh et al. (2007) A novel ensemble strategy for classification of prostate cancer protein mass spectra

51 4. Monografie Baldi P, Brunak S. Bioinformatics. The Machine Learning Approach. MIT Press 2001. Zhang Y, Rajapakse J C. Machine Learning in Bioinformatics. Wiley 2008. Durbin R, Eddy SR, Krogh A, et al. Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. Cambridge University Press 1998. Gary B Fogel, David W Corne. Evolutionary Computation in Bioinformatics. Morgan Kaufmann 2002.Artificial Intelligence and Heuristic Methods in Bioinformatics Volume 183, NATO Science Series: Computer and Systems Sciences Edited. NATO, 2003. In Higgins D, Taylor W (Eds.). Bioinformatics. Sequence, Structure, and Databanks. Oxford University Press 2000. In Husmeier D, Dybowski R, Roberts S (Eds.). Probabilistic Modeling in Bioinformatics and Medical Informatics. Springer Verlag 2005.Jagota A. Data Analysis and Classification for Bioinformatics. Bioinformatics by the Bay Press 2000. In Jiang T, Xu X, Zhang MQ (Eds.). Current Topics in Computational Molecular Biology. The MIT Press 2002. Pevzner PA. Computational Molecular Biology. An Algorithmic Approach. MIT Press 2000. In Schölkopf B, Tsuda K, Vert J-P (Eds.). Kernel Methods in Computational Biology. The MIT Press 2004. In Seiffert U, Jain LC, Schweizer P (Eds.). Bioinformatics Using Computational Intelligence Paradigms. Springer Verlag 2005.In Wang JTL, Zaki MJ, Toivonen HTT (Eds.), et al. Data Mining in Bioinformatics. Springer-Verlag 2004. Wu CH, McLarty JW. Neural Networks and Genome Identification Elsevier 2000.

52 4. Časopisy Bioinformatics BMC Bioinformatics Nucleic Acids Research Machine Learning Journal of Machine Learning Research IEEE Intelligent Systems Journal of Computer-Aided Molecular Design Journal of Molecular Biology Proteins Briefings in Bioinformatics

53 4. Tematická čísla časopisů Wu CH, McLarty JW. Neural Networks and Genome Identification Elsevier 2000. Larrañaga P, Menasalvas E, Peña JM, et al. Special issue in data mining in genomics and proteomics. Artificial Intelligence in Medicine 2003. Li J, Wong L, Yang Q. Special issue on data mining for bioinformatics. IEEE Intelligent Systems 2005. Ling CX, Noble WS, Yang Q. Special issue: Machine learning for bioinformatics-part 1. IEEE/ACM Transactions on Computational Biology and Bioinformatics 2005.


Stáhnout ppt "Osnova 1. Bioinformatická data 1.1. Makromolekuly 1.2. Od DNA k proteinu 1.3. Proteiny 1.4. Databáze 2. Strojové učení v bioinformatice 2.1. Motivace 2.2."

Podobné prezentace


Reklamy Google