Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilVendula Šimková
1
IV108 - Bioinformatika II Ing. Matej Lexa, PhD. http://www.fi.muni.cz/~lexa/ Út 12:00B204Přednáška 13:00B116Cvičení Čt 13:00 – 15:00B308Konzultace Navazuje na IV107 (Bioinformatika) Projekt: Program pro hodnocení sekvenčních vzorů Termín: 4.12.2005 Bloky přednášek: 1) Informační obsah a struktura biologických sekvencí 2) Vyhledávací nástroje 3) Předpovídání struktury nukleových kyselin a proteinů Zkouška: Písemná 45 bodů. Hodnocené práce ve cvičení a projekt můžou přispívat k celkovému bodovému hodnocení u zkoušky do výše 10+5 bodů. Základním studijním materiálem jsou přednášky a učebnice. Další studijní materiály budou specifikovány průběžně.
2
A – 91-120 % B – 81 - 90 % C – 71 - 80 % D – 61 - 70 % E – 41 - 60 % F – 0 - 40 % Klasifikace Kolokvium Projekt splňující zadání odevzdán Zkouška Projekt splňující zadání odevzdán – podmínka zkoušky. Projekt v termínu a hodnocen v horním mediánu projektů = 5b (5%) Vyřešen problém z cvičení = 1b (bonus 20%, max 10x) Písemná zkouška max. 45b (95%)
3
Umí pracovat s velkými datovými soubory Moudrými triky ovláda výkonné počítače V datech hledá zajímavé subsekvence Srovnává podobné sekvence Předpovídá strukturu a funkci genů a proteinů Studuje vývoj sekvencí a organizmů Data a výsledky analýz zobrazuje graficky Co dělá bioinformatik
4
1.0. Problém identifikace genů 2.1. Problém hodnocení podobnosti biologických sekvencí 2.2. Problém identifikace historických změn sekvence 3.1. Problém předpovídání funkce genů 3.2. Problém předpovídání struktury DNA, RNA a proteinů 4.0. Problém intuitivního zobrazení komplexních dat Problémy řešené v bioinformatice
5
Michael S Waterman (1995). Introduction to computational biology” Maps, sequences and genomes. Chapman&Hall/CRC, Boca Raton, 431 s. ISBN 0-412-99391-0 Studijní literatura
6
D.E.Krane and M.L.Raymer (2003). Fundamental Concepts of Bioinformatics. Benjamin Cummings, London, 320 s. ISBN 0-8053-4633-3 J.-M.Claverie. (2003). Bioinformatics for dummies. Hoboken, Wiley Publishing, 452 s. ISBN: 0-7645-1696-5 Doplňková literatura
7
NCBI http://www.ncbi.nlm.nih.gov/Education/index.html
8
DNA – RNA – PROTEIN SEKVENCE – STRUKTURA – FUNKCE
9
>chs1 atgacagaat acaggatgac tatgacgtga cggcttatat gatgacc... GENOTYPFENOTYP >chs1 MFVDDHLA VNQNFYLR SHRQL... GEN.KÓDSTRUKTURAFUNKCE
10
Biologická sekvence (BS) ACAGTGCGAGCATGACGATGACGCAGCAGATTGACAGAGACGATAGCAGCAT MASAQSFYLLHLAVDDFMNGAGVLSHERELLFYDENKIHDIVISMNDENMNQ Jazyk THISISJUSTASIMPLESENTENCEINENGLISHFORYOURINSPIRATION
11
http://en.wikipedia.org/wiki/Information Informace
12
ZDROJ PŘÍJEMCE Mateřská buňka nebo organizmus Molekulární aparát potomství DNA Biologická sekvence jako informace, život jako komunikace mezi buňkami, DNA jako komunikační kanál šum
13
Q C N A A 0.2 C 0.5 N 0.3 Sekvence jako Markovův řetězec NCMKLFQCDSHL P(Xi+1|Xi) = P(Xi+1|X0,...,Xi)
14
LFQ FQC FQN FQA A 0.2 C 0.5 N 0.3 Sekvence jako Markovův řetězec NCMKLFQCDSHL NCM,CMK,MKL,KLF,LFQ,FQC,QCD,CDS,DSH,SHL
15
Frekvence a pravděpodobnost výskytu F(x) = P(x) N Je vyšší u řetězců, které jsou součástí často používaných struktur Vzájemná informace MI(x,y) = P(x,y) log ( P(x,y) / (P(x)*P(y)) ) Je vyšší uvnitř struktur než na jejich rozhraní, vyjádřuje korelaci Entropie H(x) = -Σ p(x)*log(p(x)) Určuje míru neuspořádanosti, nebo taky potřebu informace pro definování určitého stavu
16
[lexa@peleus prot]$ egrep -c "SSS" ATH1.fa 15927 [lexa@peleus prot]$ egrep -c "WWW" ATH1.fa 75 Co vyjádřuje frekvence v biologických sekvencích
17
TATATAA TATAAAA TATATAT TATAAAT TATA.A.konsensus TATAWAWRE, W=[TA] 0000101entropie Co vyjádřuje entropie v biologických sekvencích H(x) = -Σ p(x)*log(p(x))
18
Jiný pohled na entropii (podmíněná entropie) [lexa@peleus prot]$ egrep -c MASAL. ATH1.fa 19 [lexa@peleus prot]$ egrep -c MASALL ATH1.fa 0 [lexa@peleus prot]$ egrep -c MASALE ATH1.fa 7 H(x) = -Σ p(x)*log(p(x))
19
$ egrep -c "." ATH1.fa 233194 $ egrep -c "C..C" ATH1.fa 8196 $ egrep -c "H..H" ATH1.fa 7398 $ egrep -c C..C.+H..H\|H..H.+C..C ATH1.fa 1005 $ bc bc 1.06 8196*1000/233194 35 7398*1000/233194 31 0.035*0.031*233194 233.194 Co vyjádřuje MI v biologických sekvencích MI(x,y) = P(x,y)log(P(x,y)/(P(x)*P(y)))
20
$ egrep -c "." ATH1.fa 233194 $ egrep -c "C..C" ATH1.fa 8196 $ egrep -c "H..H" ATH1.fa 7398 $ egrep -c C..C.+H..H\|H..H.+C..C ATH1.fa 1005 $ bc bc 1.06 8196*1000/233194 35 7398*1000/233194 31 0.035*0.031*233194 233.194 Co vyjádřuje MI v biologických sekvencích ZINC FINGER MI(x,y) = P(x,y)log(P(x,y)/(P(x)*P(y)))
21
Shannon 1948. A mathematical theory of communication.
22
Pracovná verzia analógie biológia/jazyk pre proteíny proteínveta doména, motívfráza segment (?)slovo perióda sekundárnej štruktúryslabika aminokyselinapísmeno, hláska funkcia domény, proteínuvýznam frázy, vety funkcia segmentu, vazbavýznam slova malé molekulymentálne reprezentácie objektov chemické reakciemyslenie, učenie metabolická dráharozhovor štruktúra proteínuneurologický obraz, myšlienka pravidlá skladania proteínovsyntax
23
agi Nazdar Agi! Podarilo sa mi zohnat tie listky do kina, stav sa u mna po skole a dohodneme co a ako. Milan. Běžná sekvence proteinu má informační obsah několika SMS zpráv.
24
bunke Defosforylujemribozus adeninomktorusomdostal odsvojhopartneravlavoak mamfosforylovanyserin
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.