Odvození zarovnání více řetězců z párového zarovnání, SP-skóre Ondřej Kazík 2008.

Slides:



Advertisements
Podobné prezentace
Algoritmy zpracování textů II
Advertisements

Obecně použitelné odvození
LOGISTICKÉ SYSTÉMY 6/14.
Aplikace teorie grafů Základní pojmy teorie grafů
Algoritmy I. Cvičení č. 10.
Třídění Seminář IVT. Definice uspořádání skupiny dat (záznamů) dle daného klíče vzestupně (od nejmenší do největší hodnoty klíče) sestupně (od největší.
Zarovnávání biologických sekvencí
Principy překladačů Mezikód Jakub Yaghob.
Algoritmy zpracování textů II
Automated data mining Ing. Jan Černý Czech Technical University in Prague Faculty of Information Technology.
Programování v Pascalu Přednáška 7
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Jiří Novák
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
Skip-List je datová struktura, která může být použita jako náhrada za vyvážené stromy. představují pravděpodobnostní alternativu k vyváženým stromům (struktura.
FORMALIZACE PROJEKTU DO SÍŤOVÉHO GRAFU
LOGISTICKÉ SYSTÉMY 7/14.
Matematické metody v ekonomice a řízení II
C# - znakové typy a řetězce
TI 6.1 STROMY A KOSTRY Stromy a kostry. TI 6.2 Stromy a kostry Seznámíme se s následujícími pojmy: kostra grafu, cyklomatické číslo grafu, hodnost grafu.
SWI072 Algoritmy komprese dat1 Algoritmy komprese dat Statistické metody komprese dat a Shannon-Fanův kód.
Základy objektově orientovaného programování Jiří Strach.
KIV/PRO Cvičení Přátelské mince Mějme nově založený stát – Je potřeba vydat vlastní měnu – Uvažujme pouze mince, bankovky zanedbáme Vstup:
Datové typy a práce s nimi
Časová složitost algoritmů, řazení a vyhledávání
Vyváženost SOS Vyvážené SOS –Omezení délky vyhledávací cesty ve struktuře počtem logických stránek M O(f(M)): O(M), O(log M), O(1), … Složitost (počet.
Časová složitost algoritmů
Využití vzorců a funkcí k úpravám v textu
Univerzita Karlova Matematicko-fyzikální fakulta Lukáš Jirovský Teorie grafů – prezentace Bc. Práce Vedoucí práce: RNDr. Pavla Pavlíková, Ph.D.
Objektově orientované programování - cvičení 1
TEORIE HER.
Dělitelnost přirozených čísel 6. ročník - Matematika
1 TEORIE HER Nejmenovaná studentka, písemka, 2003: „Teorii her neznám, ale kdo si hraje, nezlobí“ „Teorii her neznám, ale kdo si hraje, nezlobí“
P-těžké, np-těžké a np-úplné problémy
Matematické metody optimalizace Tomáš Vaníček Katedra inženýrské informatiky Stavební fakulta ČVUT Thákurova 7, Praha 6 Dejvice, b407
KIV/PRO Cvičení Nejkratší cesta Vstup – N měst – Mezi některými dvojicemi měst vedou obousměrné silnice, zadány délky cest Výstup – Nejkratší.
Rozpoznávání v řetězcích
SWI072 Algoritmy komprese dat1 Algoritmy komprese dat Huffmanův kód - aplikace.
Radim Farana Podklady pro výuku
Průměr Maximum Minimum
Lineární programování - charakteristika krajních bodů
JAK NAJÍT NEJLEPŠÍ STROM
Kanonické indexování vrcholů molekulového grafu Molekulový graf: G = (V, E, L, ,  ) Indexování vrcholů molekulového grafu G: bijekce  : V  I I je indexová.
Doc. Josef Kolář (ČVUT)Prohledávání grafůGRA, LS 2010/11, Lekce 4 1 / 15Doc. Josef Kolář (ČVUT)Prohledávání stavového prostoruGRA, LS 2013/14, Lekce 11.
NP-úplné problémy v grafech
Směrování -RIP. 2 Základy směrování  Předpoklady:  Mějme směrovač X  Směrovač nemůže znát topologii celé sítě  X potřebuje určit směrovač pro přístup.
4. Typ pole 4.1 Jednorozměrná pole
České vysoké učení technické Fakulta elektrotechnická Datové typy, výrazy vstup, výstup Jazyk JAVA A0B36PRI - PROGRAMOVÁN Í v1.02.
Vyhledávání vzorů (template matching)
Doc. Josef Kolář (ČVUT)Prohledávání grafůGRA, LS 2010/11, Lekce 4 1 / 15Doc. Josef Kolář (ČVUT)NP-úplné problémyGRA, LS 2012/13, Lekce 13 1 / 14 NP-ÚPLNÉ.
Formální definice Konečná množina vnitřních stavů Q Konečná vstupní abeceda A Počáteční stav q 0 Množina přijímacích stavů K.
Sample Solutions CTU Open Contest Alea Alea  Vygenerování posloupnosti hodů  Zkoušení všech možností  Již spočítané varianty se ukládají (dynamické.
McEllisova šifra.
Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Hledání silně souvislý komponent Silně souvislá komponenta orientovaného grafu G= (V,E) je maximální množina uzlů UV taková že ∀ u,v ∈ V : u je dosažitelné.
PROGRAMOVÁNÍ 3ITA,3ITB Jaroslav Burdys Hlavní zdroj:
E LEMENTARISTIKA ELEKTRONICKÝCH INFORMACÍ IV. T EXTOVÝ PROCESOR POSLOUPNOST ZNAKŮ, OBJEKTY V TEXTU Jiří Leipert.
Databáze ● úložiště dat s definovaným přístupem ● typy struktury – strom, sekvence, tabulka ● sestává z uspořádaných záznamů ● databáze – struktura – záznam.
Programování ENUM, SWITCH,pole jednorozměrná a vícerozměrná, deklarace, inicializace, kopírování, porovnání Erik Král.
Znázornění dopravní sítě grafem a kostra grafu Předmět: Teorie dopravy - cvičení Ing. František Lachnit, Ph.D.
Překladače 5. Syntaktická analýza
Fergusonova kubika a spline křivky
Planimetrie Úhly, rovnoběžky proťaté příčkou, Pythagorova věta, trojúhelníková nerovnost, obsahy a obvody rovinných útvarů, vzájemná poloha dvou kružnic.
Goniometrické funkce Autor © Mgr. Radomír Macháň
Fylogenetická evoluční analýza
Výpočetní složitost algoritmů
Toky v sítích.
Ukázky aplikací matematiky
ALG 14 Vícedimenzionální data Řazení vícedimenzionálních dat
Prakticky identické postupy:
Transkript prezentace:

Odvození zarovnání více řetězců z párového zarovnání, SP-skóre Ondřej Kazík 2008

Zarovnání více řetězců Nalézt konsensuální řetězec x:AC-GCGG-C y:AC-GC-GAG z:GCCGC-GAG Možnost 1: zpětný běh vícerozměrného algoritmu dyn. programování Složitost O(2 k n k ) porovnání k bází o délce n Lze odvodit vícerozměrné zarovnání z párového?

Profil Reprezentace konsesuálního řetězce Na každé pozici četnost báze/vynechání A C G T Každá sekvence je převoditelná na profil Jak porovnávat dvojici profilů? Jak sloučit dva profily?

Globální zarovnání profilů Obdoba algoritmu globálního zarovnání (např. s afinními pokutami za mezery) Změna ve výpočtu δ (v i, w j ) profilů – součet všech δ (a,b) kde a je z v i a b je z w j Například δ ({’-’,3x’A’},{‘-’,’A’,’C’})=δ (-,-)+4δ (-,A)+δ (-,C)+3δ (A,A)+3δ (A,C) Při insertu k pozic do prvního profilu přičítáme: –4(ρ+kσ) Do druhého: –3(ρ+kσ)

Vytvoření společného profilu Zpětný chod nejlepší cesty grafem Pro každý uzel: 1.Pro match/replace: sloučit profily (sečíst odpovídající četnosti) 2.Pro insert/replace: sloučit profil s odpovídajícím počtem mezer Union( {’-’,3x’A’},{‘-’,’A’,’C’} )= [‘-’,4x’A’,’C’]

Algoritmus zarovnání: hladový přístup Odvození zarovnání mnoha řetězců z párového není možné jednoznačně Heuristiky Hladový algoritmus: 1.Převést sekvence na profily 2.Spočítat skóre pro vš. profily p i, p j, i<j 3.Vymazat profily s největším skórem a přidat společný profil 4.Opakovat 2 – 3 dokud není jen jeden profil

Hladový algoritmus: příklad

SP-Skóre Předpokládáme aditivní skóre SP (součet párů) na zarovnání více řetězců: součet všech skóre na indukovaných párových zarovnání s(a 1,…,a k ) = Σ i,j s*(a i, a j ) Alternativa: součet SP-skóre přes všechny sloupce zarovnání – na každé pozici sčítám d přes všechny dvojice G CG 1  Score = 1 –  Column 3

SP-skóre profilu Skóre je odvoditelné přímo z profilu Posloupnosti: S1:ATG S2:ATG S3:A__ S4:_T_ Profil: [{3x’A’,’-’},{3x’T’,’-’},{2x’G’,2x’-’}] Skóre: SP-score=SP-score(A,A,A,-)+SP-score(T,T,T,-)+ SP-score(G,G,-,-)= =-13