Srovnání sekvencí - základní vzorce a= a 1 a 2 a 3 ………..a 100 b= b 1 b 2 b 3 ………..b 100 Euklidovská vzdálenost City Block vzdálenost Hammingova vzdálenost.

Slides:



Advertisements
Podobné prezentace
PRIPO Principy počítačů
Advertisements

Dynamické systémy.
Dualita úloh lineárního programování a analýza citlivosti
Programování funkcí v Excelu (pole)
ALGO – Algoritmizace 1. cvičení
Mgr. Vlastislav Kučera přednáška č. 10.  Polohování ◦ Absolutní polohování  Vlastnosti ◦ umístění ◦ display ◦ visibility.
Genetické algoritmy [GA]
Přednáška 12 Diferenciální rovnice
Zarovnávání biologických sekvencí
Genetické algoritmy. V průběhu výpočtu používají náhodné operace. Algoritmus není jednoznačný, může projít více cestami. Nezaručují nalezení řešení.
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Jiří Novák
Návrh a optimalizace filtru OTA-C s využitím heuristických algoritmů ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Katedra teorie obvodů.
Návrh a optimalizace filtru OTA-C s využitím evolučních algoritmů Praha 2007 Bc. Dalibor Barri ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická.
FORMALIZACE PROJEKTU DO SÍŤOVÉHO GRAFU
LOGISTICKÉ SYSTÉMY 7/14.
LOGISTICKÉ SYSTÉMY 8/14.
Decision Trees & Genetic Programming 1 Klasické DT V některých případech nepraktické.
Získávání informací Získání informací o reálném systému
Statistická mechanika - Boltzmannův distribuční zákon
Optimalizační úlohy i pro nadané žáky základních škol
Odhad genetických parametrů
DalšíPředchozíTÉMA: M. K a d l e c o v á M. K a d l e c o v á.
STANOVENÍ NEJISTOT PŘI VÝPOŠTU KONTAMINACE ZASAŽENÉHO ÚZEMÍ
GYMNÁZIUM, VLAŠIM, TYLOVA 271
TMF045 letní semestr 2005/2006 II Časová propagace vlnové funkce na mřížce I. (práce s momentovou reprezentací) (Lekce II)
Genetické algoritmy Lukáš Kábrt.
Optimalizace versus simulace 9.přednáška. Obecně o optimalizaci  Maximalizovat nebo minimalizovat omezujících podmínkách.  Maximalizovat nebo minimalizovat.
Genetické algoritmy [GA]. Historie:  1960: I. Rechenberg – první odborná práce na toto téma „Evolution strategies“  1975: John Holland – první genetický.
Biologie.
Dokumentace informačního systému
EAL Evolutionary Algorithms Library in VC++, Maple and OpenGL.
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ FAKULTA STROJNÍ ÚSTAV PŘÍSTROJOVÉ A ŘÍDICÍ TECHNIKY ODBOR AUTOMATICKÉHO ŘÍZENÍ A INŽENÝRSKÉ INFORMATIKY Aplikace objektově.
0 / 1X36DSA 2005The complexity of different algorithms varies: O(n), Ω(n 2 ), Θ(n·log 2 (n)), … Různé algoritmy mají různou složitost: O(n), Ω(n 2 ), Θ(n·log.
Aplikační počítačové prostředky X15APP MATLAB Katedra elektroenergetiky, Fakulta elektrotechniky ČVUT, Technická 2, Praha 6 Ing. Zbyněk Brettschneider.
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Databázové modelování
Rozpoznávání v řetězcích
GA a predčasná konvergence Předčasná konvergence - výpočet konverguje příliš rychle k nějakému neoptimálnímu řešení Co způsobuje předčasnou konvergenci?
Počítačová chemie (5. přednáška)
Analýza informačního systému. Podrobně zdokumentovaný cílový stav Paramentry spojené s provozem systému – Cena – Přínosy – Náklady a úspory – …
8. Kontingenční tabulky a χ2 test
Plánování trajektorie pro bezpilotní letoun za účelem sledování pozemních objektů pomocí inerciálně stabilizované kamerové platformy Michal Kreč Vedoucí.
Zpracoval :Ing. Petr Dlask, Ph.D. Pracoviště :Katedra Ekonomiky a řízení stavebnictví ČVUT v Praze Adresa :Thákurova 7, Praha 6, Dejvice Optimalizace.
Databázové systémy 2 Zkouška – 8:00. Příklad I - Funkce Vytvořte funkci ZK_DIFF_MIN_MAX (P_ZAM_ID NUMBER) RETURN VARCHAR2. Funkce může vracet.
SEKVENCE A:MASAQSFYLL SEKVENCE B:MASGQWLLAS Které oblasti A a B jsou si nejvíce podobné ? Jsou si A a B víc podobné než A a C ? Která ze sekvencí X1,...,Xn.
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Optimalizace versus simulace 8.přednáška. Obecně o optimalizaci  Maximalizovat nebo minimalizovat omezujících podmínkách.  Maximalizovat nebo minimalizovat.
Vyhledávání vzorů (template matching)
MASKS © 2004 Invitation to 3D vision. MASKS © 2004 Část 1 Přehled a úvod.
Radim Farana Podklady pro výuku
Matematické modelování toku neutronů v jaderném reaktoru SNM 2, LS 2009 Tomáš Berka, Marek Brandner, Milan Hanuš, Roman Kužel, Aleš Matas.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Programování v MATLABu © Leonard Walletzký, ESF MU, 2000.
Neuronové sítě.
Algoritmizace a programování Algoritmy 1 - Úvod. Základní pojmy Počítačový program Počítačový program zápis zdrojového kódu, kterému rozumí počítač zápis.
EMM21 Ekonomicko-matematické metody 2 Prof. RNDr. Jaroslav Ramík,CSc.
Projekt HAPMAP Popis haplotypů
1. Co mají společného násobky těchto čísel?
Operační výzkum Lineární programování Dopravní úloha nevyrovnaná.
Gymnázium, Třeboň, Na Sadech 308
- váhy jednotlivých studií
VY_32_INOVACE_19_28_Genetika
Elektronické učební materiály – II. stupeň Matematika 6
Fylogenetická evoluční analýza
Spojitá a kategoriální data Základní popisné statistiky
Typy proměnných Kvalitativní/kategorická binární - ano/ne
ANALÝZA A KLASIFIKACE DAT
Základy statistiky.
Algoritmizace a datové struktury (14ASD)
Transkript prezentace:

Srovnání sekvencí - základní vzorce a= a 1 a 2 a 3 ………..a 100 b= b 1 b 2 b 3 ………..b 100 Euklidovská vzdálenost City Block vzdálenost Hammingova vzdálenost # počet odlišných pozic

a= b= Euklidovská vzdálenost = City Block vzdálenost Hammingova vzdálenost = =3

Dvě struktury jsou homologické tehdy, mají li společného evolučního předka, nebo mají li podobnou strukturu + funkci. Struktury mají vysoký stupeň homologie jsou li mezi nimi relativně malé rozdíly. Jsou určité makromolekuly homologické? Jaká část jedné molekuly je homologická k jaké části druhé molekuly? Jaké dvě makromolekuly mají typicky vysoká stupeň homologie?

Jak se sekvence liší? Substituce (výměna) Delece a inzerce Komprese a expanze Transpozice I N D U S T R Y I N T E R E S T

Alignment nebo shoda INDUST  R  Y  IN  TEREST INDUSTRYDelete D INUSTRYDelete U INSTRYSubst Y by S INSTRSInsert E INSTERSInsert E INSTERESDelete S INTERESInsert T INTEREST

Různé analýzy stejného páru W A T E RW A T E R | | W I N E W I N E W A T E RW A T E R | | | | W I N E W I N E W A T E R W I N E

Algoritmus - Dynamické programování - podobný koncept jako „ dot matrix“ Aplikována na biologické sekvence Aplikována na biologické sekvence  S. B. Needleman & C. D. Wunsch. A general method applicable to the search for similarities in the amino acid sequence of two proteins. J. Mol. Biol. 48: (1970)

Základní kroky dynamického programování 1)Inicializace skórovací matice (0 nebo 1) 2)Sumace -nalézt maximální počet shod který může být získán počínaje libovolnou pozicí a pokračováním „vpřed“ 3)Traceback k nalezení maximálního alignmentu

Sumace: 1.Start v pravém dolním rohu 2.Pohyb nahoru a vlevo o jednu pozici 3.Nalezení největší hodnoty buď, v a) v segmentu řádku počínajícím jeden pod aktuální pozicí a pokračováním vpravo, nebo b) v segmentu sloupce počínajícím jeden vpravo od aktuální pozice a pokračováním dolů 4.Připočtení této hodnoty k hodnotě aktuálního políčka 5.Zopakování kroku 3 a 4 pro všechna políčka vlevo od aktuálního řádku a nahoru od aktuálního sloupce dokud se nedospěje k levému okraji matice. 6.Pokud nejsme v levém horním rohu, pokračovat 2

Aplikace Hidden Markova Modelu na proteiny stejné core všech 20 aminokyselin - karboxylová kyselina - aminoskupina sekvence – primární struktura

CGGSLLNAN--TVLTAAHC CGGSLIDNK-GWILTAAHC CGGSLIRQG--WVMTAAHC CGGSLIREDSSFVLTAAHC Primární struktura 4 příbuzných proteinů CGSLIREDWVLTAAHC Možný společný předek

Jednoduchý statistický profile

Pravděpodobnost výskytu CGGSV 0.8 * 0.4 * 0.8 * 0.6 * 0.2 =.031 Tímto výpočtem získáváme score pro určitou sekvenci. (Transformace do logaritmické funkce) log e (0.8)+log e (0.4)+log e (0.8)+log e (0.6)+log e (0.2) = -3.48

Hidden Markov Model je druh dynamického statistického profilu Má komplexnější topologiii HMM lze vizualizovat jako stroj finitních stavů Stroj finitních stavů – pohybuje se skrze série stavů a produkuje výstupní stav ať už se stroj nachází v určitém stavu, nebo se pohybuje mezi nimi. HMM generuje sekvenci proteinu emisí AA při průchodu sériemi stavů. Každý stav je charakterizován tabulkou emisních pravděpodobností podobnýcj jako v profilu. Existují i tranzitní pravděpodobnosti.

HMM – základní schéma

Možný HMM pro sekvenci ACCY. Protein je representován jako sekvence pravděpodobností.Čísla ukazují pravděpodob- nosti, že se která aminokyselina nachází v danném stavu. Čísla u šipek ukazují pravděpodobnosti přechodu mezi stavy. match insert delete

Libovolná sekvence může být representována jedinečnou cestou v HMM. Pravděpodobnost určité sekvence je určena jako součin emisních a transitních pravděpodobností podél určité trajektorie (cesty) ACCY 4 *.3 *.46 *.6 *.97 *.5 *.015 *.73 *.01 * 1 = 1.76x log e (.4) + log e (.3) + log e (.46) + log e (.6) + log e (.97) + log e (.5) + log e (.015) + log e (.73) +log e (.01) + log e (1) = Výpočet je jednoduchý je li známa cesta. Ve skutečném modelu existuje mnoho různých cest generující téže sekvenci. Proto přesná pravděpodobnost sekvence je suma pravděpodobností přes všechny možné stavové trajektorie.

Výpočet nejlepší cesty: - Viterbův algoritmus - forwarding algoritmus Problém ACCY: stavy: M – match, I – insertion, D – deletion 1)Pravd. že A je generováno jao stav I0 je vypočteno a vneseno do matice 2)Pravd. že C je emitováno do stavu M1 a do stavu I1 je vneseno do matice jako C a I1/M1 3)vypočte se max (I1/M1) 4)pointer je posunut od vítěze do stavu I0 5)opakuje se 2-5 dokud se matice nenaplní

Matice Viterbiho algoritmu

Význam score: Model je generalizací jak jsou AA distribuovány v určité grupě příbuzných sekvencí. Score tedy znamená příslušnost k danné třídě. Lokální versus globální scoring.

Problémy: Vybudování setu pro HMM, je třeba odhadnout emisní koeficienty. K tomu je třeba série příbuzných testovacích sekvencí. Pokud je stavová trajektorie známa, je možné vypočítat jednotlivé pravděpodobnosti. V opačném případě je nalezení nejlepšího modelu pro danou testovací sadu problémem který nemá řešení v uzavřené formě.

Vážení sekvencí: malá skupina vysoce podobných sekvencí může vnést do modelu nechtěnou závislost. řešení: - vážení sekvencí

I0=I1+I2 I1=I2 I2=I3+I4 I3=I4 I3=I5+I6 I5=I6 I4=I7+I8 I7=I8 I1=I2=.5 * I0 I3=I4=.25*I1 I5=I6=I7=I8=.125 * I1

Genetický algoritmus The so-called genetic algorithm is a heuristic method that operates on pieces of information like nature does on genes in the course of evolution. Individuals are represented by a linear string of letters of an alphabet (in nature nucleotides, in genetic algorithms bits, characters, strings, numbers or other data structures) and they are allowed to mutate, crossover and reproduce. All individuals of one generation are evaluated by a fitness function. Depending on the generation replacement mode a subset of parents and offspring enters the next reproduction cycle. After a number of iterations the population consists of individuals that are well adapted in terms of the fitness function.

Základní popis genetického algoritmu 1)Je stvořena populace individualit - individua jsou charakterizována a vyjádřena jako sekvence bitů. (obecně – řada) - je definována tzv. fittness funkce. je definována tak, že vezme jako vstup individuum a poskytne jako výstup číslo nebo vektor který udává kvalitu individua - určí se hierarchie individuí podle fittness funkce 2)Provede se ohodnocení všech individuí v první populaci 3)Vytvoří se nová individua. Reprodukční schopnost individuí je proporcionální jejich hierarchii v danné populaci. Zahrnuje následující operace

MutaceVariaceKřížení

4)Výběr individuí pro novou generaci rodičů - v originálním genet. algoritmu se zavrhnou rodiče a pouze individua z nové generace mohou tvořit příští rodiče - upravovaný GA uvažuje pro zhodnocení celou populaci včetně rodičů. Do další generace jsou selektováni fittness funkcí. (tzv. elitářská výměna) 5)opakuj kroky 2 až 4 dokud není dosaženo požadované vlastnosti, nebo dokud neproběhne předepsaný počet iterací Matematické základy GA položil J.H.Holland v tzv. „schemata theorem“ -schema je generalizací nebo částí individua

a může být sumarizováno schematem: 0101# #10#011101#10101#1 Očekávané množství výskytu určitého schematu v čase t+1

Úloha: největší druhá mocnina integer < 32

Evoluční strategie: jde o optimalizační problém stejně jako u GA Rozdíly: -ES byla vytvořena jako optimalizační funkce -reprodukce v GA je proporcionální fittness funkci, nikoli v ES -GA činí rozdíly mezi genotypem a fenotypem, ES nikoli -v ES rodiče i potomci kompetují o přežití, nikoli v orig. GA -mutace je řídící silou u ES zatímco pro GA je to křížení

Hydropathy/Hydrophilicity/ Hydrophobicity Hydropathy & Hydrophobicity –stupeň ukazující “water hating” či “water fearing” Hydrophilicity –stupeň ukazující “water loving”

Hydropathy/Hydrophilicity/ Hydrophobicity Analýza Cíl: Nalézt kvantitativní popis stupně expozice proteinu do vodného prostředí Východisko: Tabulka expozic jednotilých aminokyselin

Hydrophobicity/Hydrophilicity Tables Popisuje pravděpodobnost pro každou aminokyselinu, že bude nalezena ve vodném prostředí Používaná kriteria –Kyte-Doolittle hydropathy –Hopp-Woods hydrophilicity –Eisenberg et al. normalizovaná consensuální hydrophobicita

Kyte-Doolittle hydropathy

Hydrophilicity Plot - Příklad Tento plot je pro tubulin, rozpustný cytoplasmatický protein. Regiony s vysokou hydrophilicitou jsou pravděpodobně exponovány do solventu (cytoplasmy), zatímco hydrophilní jsou pravděpodobně uvnitř nebointeragují s jinou částí proteinu okno 7 AA

Amphiphilicity/Amphipathicity K nalezení takové sekvence hledáme oblasti kde se střídají krátké úseky nabitých aminokyselin s kratkými úseky hydrofobních v opakované délce která koresponduje s periodou ve struktuře