IV108 - Bioinformatika II Ing. Matej Lexa, PhD. Út 12:00B204Přednáška 13:00B116Cvičení Čt 13:00 – 15:00B308Konzultace Navazuje na IV107 (Bioinformatika) Projekt: Program pro hodnocení sekvenčních vzorů Termín: Bloky přednášek: 1) Informační obsah a struktura biologických sekvencí 2) Vyhledávací nástroje 3) Předpovídání struktury nukleových kyselin a proteinů Zkouška: Písemná 45 bodů. Hodnocené práce ve cvičení a projekt můžou přispívat k celkovému bodovému hodnocení u zkoušky do výše 10+5 bodů. Základním studijním materiálem jsou přednášky a učebnice. Další studijní materiály budou specifikovány průběžně.
A – % B – % C – % D – % E – % F – % Klasifikace Kolokvium Projekt splňující zadání odevzdán Zkouška Projekt splňující zadání odevzdán – podmínka zkoušky. Projekt v termínu a hodnocen v horním mediánu projektů = 5b (5%) Vyřešen problém z cvičení = 1b (bonus 20%, max 10x) Písemná zkouška max. 45b (95%)
Umí pracovat s velkými datovými soubory Moudrými triky ovláda výkonné počítače V datech hledá zajímavé subsekvence Srovnává podobné sekvence Předpovídá strukturu a funkci genů a proteinů Studuje vývoj sekvencí a organizmů Data a výsledky analýz zobrazuje graficky Co dělá bioinformatik
1.0. Problém identifikace genů 2.1. Problém hodnocení podobnosti biologických sekvencí 2.2. Problém identifikace historických změn sekvence 3.1. Problém předpovídání funkce genů 3.2. Problém předpovídání struktury DNA, RNA a proteinů 4.0. Problém intuitivního zobrazení komplexních dat Problémy řešené v bioinformatice
Michael S Waterman (1995). Introduction to computational biology” Maps, sequences and genomes. Chapman&Hall/CRC, Boca Raton, 431 s. ISBN Studijní literatura
D.E.Krane and M.L.Raymer (2003). Fundamental Concepts of Bioinformatics. Benjamin Cummings, London, 320 s. ISBN J.-M.Claverie. (2003). Bioinformatics for dummies. Hoboken, Wiley Publishing, 452 s. ISBN: Doplňková literatura
NCBI
DNA – RNA – PROTEIN SEKVENCE – STRUKTURA – FUNKCE
>chs1 atgacagaat acaggatgac tatgacgtga cggcttatat gatgacc... GENOTYPFENOTYP >chs1 MFVDDHLA VNQNFYLR SHRQL... GEN.KÓDSTRUKTURAFUNKCE
Biologická sekvence (BS) ACAGTGCGAGCATGACGATGACGCAGCAGATTGACAGAGACGATAGCAGCAT MASAQSFYLLHLAVDDFMNGAGVLSHERELLFYDENKIHDIVISMNDENMNQ Jazyk THISISJUSTASIMPLESENTENCEINENGLISHFORYOURINSPIRATION
Informace
ZDROJ PŘÍJEMCE Mateřská buňka nebo organizmus Molekulární aparát potomství DNA Biologická sekvence jako informace, život jako komunikace mezi buňkami, DNA jako komunikační kanál šum
Q C N A A 0.2 C 0.5 N 0.3 Sekvence jako Markovův řetězec NCMKLFQCDSHL P(Xi+1|Xi) = P(Xi+1|X0,...,Xi)
LFQ FQC FQN FQA A 0.2 C 0.5 N 0.3 Sekvence jako Markovův řetězec NCMKLFQCDSHL NCM,CMK,MKL,KLF,LFQ,FQC,QCD,CDS,DSH,SHL
Frekvence a pravděpodobnost výskytu F(x) = P(x) N Je vyšší u řetězců, které jsou součástí často používaných struktur Vzájemná informace MI(x,y) = P(x,y) log ( P(x,y) / (P(x)*P(y)) ) Je vyšší uvnitř struktur než na jejich rozhraní, vyjádřuje korelaci Entropie H(x) = -Σ p(x)*log(p(x)) Určuje míru neuspořádanosti, nebo taky potřebu informace pro definování určitého stavu
prot]$ egrep -c "SSS" ATH1.fa prot]$ egrep -c "WWW" ATH1.fa 75 Co vyjádřuje frekvence v biologických sekvencích
TATATAA TATAAAA TATATAT TATAAAT TATA.A.konsensus TATAWAWRE, W=[TA] entropie Co vyjádřuje entropie v biologických sekvencích H(x) = -Σ p(x)*log(p(x))
Jiný pohled na entropii (podmíněná entropie) prot]$ egrep -c MASAL. ATH1.fa 19 prot]$ egrep -c MASALL ATH1.fa 0 prot]$ egrep -c MASALE ATH1.fa 7 H(x) = -Σ p(x)*log(p(x))
$ egrep -c "." ATH1.fa $ egrep -c "C..C" ATH1.fa 8196 $ egrep -c "H..H" ATH1.fa 7398 $ egrep -c C..C.+H..H\|H..H.+C..C ATH1.fa 1005 $ bc bc *1000/ *1000/ *0.031* Co vyjádřuje MI v biologických sekvencích MI(x,y) = P(x,y)log(P(x,y)/(P(x)*P(y)))
$ egrep -c "." ATH1.fa $ egrep -c "C..C" ATH1.fa 8196 $ egrep -c "H..H" ATH1.fa 7398 $ egrep -c C..C.+H..H\|H..H.+C..C ATH1.fa 1005 $ bc bc *1000/ *1000/ *0.031* Co vyjádřuje MI v biologických sekvencích ZINC FINGER MI(x,y) = P(x,y)log(P(x,y)/(P(x)*P(y)))
Shannon A mathematical theory of communication.
Pracovná verzia analógie biológia/jazyk pre proteíny proteínveta doména, motívfráza segment (?)slovo perióda sekundárnej štruktúryslabika aminokyselinapísmeno, hláska funkcia domény, proteínuvýznam frázy, vety funkcia segmentu, vazbavýznam slova malé molekulymentálne reprezentácie objektov chemické reakciemyslenie, učenie metabolická dráharozhovor štruktúra proteínuneurologický obraz, myšlienka pravidlá skladania proteínovsyntax
agi Nazdar Agi! Podarilo sa mi zohnat tie listky do kina, stav sa u mna po skole a dohodneme co a ako. Milan. Běžná sekvence proteinu má informační obsah několika SMS zpráv.
bunke Defosforylujemribozus adeninomktorusomdostal odsvojhopartneravlavoak mamfosforylovanyserin