SEKVENCE A:MASAQSFYLL SEKVENCE B:MASGQWLLAS Které oblasti A a B jsou si nejvíce podobné ? Jsou si A a B víc podobné než A a C ? Která ze sekvencí X1,...,Xn.

Slides:



Advertisements
Podobné prezentace
Algoritmy zpracování textů II
Advertisements

Statistická indukce Teorie odhadu.
Obecně použitelné odvození
Stavový prostor. • Existují úlohy, pro které není k dispozici univerzální algoritmus řešení • různé hry • problém batohu, problém obchodního cestujícího.
Fraktálová komprese obrazu
Lineární regresní analýza Úvod od problému
Zarovnávání biologických sekvencí
Algoritmy zpracování textů II
Praktikum základů genomiky, zima 2007 Základy genomiky I. Úvod do bioinformatiky Jan Hejátko Masarykova univerzita, Laboratoř funkční genomiky a proteomiky.
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
1 Vyhledávání Principy vyhledávání Klasifikace klíče:  Interní klíč – je součástí prohlížených záznamů  Externí klíč – není jeho součástí, je jím např.
VÍCEKRITERIÁLNÍ ROZHODOVÁNÍ I.
Jak se pozná nejlepší strom?
Výpočet pojistného. Riziko rriziko je stupeň nejistoty s určitou pravděpodobností, přičemž pravděpodobnost je poměr počtu dané alternativě příznivých.
Návrh a tvorba WWW Přednáška 11
Poskytuje daný generátor opravdu posloupnost náhodných čísel?
Optimalizace versus simulace 9.přednáška. Obecně o optimalizaci  Maximalizovat nebo minimalizovat omezujících podmínkách.  Maximalizovat nebo minimalizovat.
Projekt HUGO – milníky - I
Vybraná rozdělení spojité náhodné veličiny
Další spojitá rozdělení pravděpodobnosti
Bioinformatika Predikce genů, Fylogenetická analýza
Milan Kryl(c) 2004 MFF UK Databáze Caché NLS national language settings.
Realtime identifikace osob podle hlasu
Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo.
PRAVDĚPODOBNOST NEZÁVISLÉ JEVY Jevy A,B nazýváme nezávislými, jestliže
Tento vzdělávací materiál vznikl v rámci projektu EU – peníze školám Název projektu : Objevujeme svět kolem nás Reg. číslo projektu: CZ.1.07/1.4.00/
Rozpoznávání v řetězcích
Srovnání sekvencí - základní vzorce a= a 1 a 2 a 3 ………..a 100 b= b 1 b 2 b 3 ………..b 100 Euklidovská vzdálenost City Block vzdálenost Hammingova vzdálenost.
Sekvenování.
BLAST (basic local alignment search tool) Vyhledává podobné sekvence v databázích. Stal se nástrojem pro všechno. Určitou dobu kolektiv autorů držel krok.
DOK. NĚCO K IMPLEMENTACI … Dokumentografické informační systémy IRS musí parcovat s velmi rozsáhlými ale velmi řídkými maticemi.
Odvození zarovnání více řetězců z párového zarovnání, SP-skóre Ondřej Kazík 2008.
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
JAK NAJÍT NEJLEPŠÍ STROM
Alternativy k evolučním optimalizačním algoritmům Porovnání genetických algoritmů a některých tradičních stochastických optimalizačních přístupů David.
Kanonické indexování vrcholů molekulového grafu Molekulový graf: G = (V, E, L, ,  ) Indexování vrcholů molekulového grafu G: bijekce  : V  I I je indexová.
Normální rozdělení a ověření normality dat
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
Informační zdroje pro molekulární biologii M. Jurajda.
Bioinformatika Radka Storchová.
DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ
Anti – Aliasing Ondřej Burkert atrey.karlin.mff.cuni.cz/~ondra/stranka.
Jan Pačes Ústav molekulární genetiky Jiří Vondrášek Ústav organické chemie a biochemie Alignment I
Autoři:Jakub Doležal, Jiří Štěpanovský.  Harmony search v C++  Účelová funkce Sammonova zobrazení  Využití Bergmannových divergencí  Numerické experimenty.
Prohledávání dokumentů ve vektorovém modelu Pavel Moravec.
Hustota pravděpodobnosti – případ dvou proměnných
Teorie náhodných matic aneb tak trochu jiná statistika
Troubleshooting Hledání příčin poruch Metody pro určení proč něco nepracuje správně, nebo neposkytuje očekávané výsledky.
CG020 Genomika Bi7201 Základy genomiky Přednáška 1
Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Fulltextový vyhledávač Štěpán Škrob.
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.
Bioinformatika je nová disciplína na rozhraní počítačových věd, informačních technologií, matematiky a biologie Bioinformatika zahrnuje studium praktické.
Exonové, intronové, promotorové mutace
Univerzitní informační systém VIII., Karlov 2009 Fulltextové vyhledávání v UIS Miroslav Prachař.
ŘEŠENÍ PROBLÉMŮ: GESTALT PSYCHOLOGIE, TEORIE PROSTORU PROBLÉMU EXPERTI ROZHODOVÁNÍ: HEURISTIKY, TEORIE PODPORY, TEORIE UŽITKU CHYBY V ROZHODOVÁNÍ Řešení.
Dobývání znalostí z databází fulltext
Obecně použitelné odvození
Exonové, intronové, promotorové mutace
Jak se pozná nejlepší strom?
VÍCEKRITERIÁLNÍ ROZHODOVÁNÍ I.
- váhy jednotlivých studií
Databázové systémy a SQL
Fylogenetická evoluční analýza
Výpočetní složitost algoritmů
Neparametrické testy pro porovnání polohy
ANALÝZA A KLASIFIKACE DAT
Jak získáváme znaky pomocí sekvenace unikátních lokusů
Procvičování matematických řádu Více informací na webu: emagister.proweb.cz
Transkript prezentace:

SEKVENCE A:MASAQSFYLL SEKVENCE B:MASGQWLLAS Které oblasti A a B jsou si nejvíce podobné ? Jsou si A a B víc podobné než A a C ? Která ze sekvencí X1,...,Xn je nejpodobnější A ? Jaká je pravděpodobnost výskytu dané podobnosti v náhodné sekvenci ? Existují už publikované homology sekvence A ? Jaká je funkce A ? Stupeň podobnosti dvou sekvencí

IDENTITA MASAQSFYLL |||||||||| MASAQSFYLL SUBSTITUCEMASAQSFYLL ||||||:||||||||| ||| MASAQSWYLLMASAQSTYLL INZERCE/DELECE MASAQSFYLL |||||| ||| MASAQS-YLL TRANSPOZICE MASAQSFYLL ||||| ||| MASAQFSYLL

Stupeň podobnosti dvou sekvencí Netriviální hodnocení substitucí u proteinů (matice PAM250)

A G A T A A G ? T -6 C -8 A -10 INDEL=-2 IDENT=2 SUBST=-1 AGATA || |S=4 AGTCA Stupeň podobnosti dvou sekvencí

BLAST (basic local alignment search tool) Co když jsou sekvence dlouhé a máme jich několik milionů ? DP nestačí, výpočty trvají příliš dlouho. Alternativou výpočtu by byl předpočítaný soubor výskytu různých slov v databázi (index). Problémem indexu je, že je pro dlouhá slova nezvladatelný objemově. Existuje např = různých uspořádání osmi aminokyselin v řetězci, několik způsobů hodnocení podobnosti atd. Kompromisem je heuristické řešení. Nalezení tzv. “seeds”, výskytu krátkých řetězců a hledání podobnosti DP algoritmem jenom v jejich blízkosti.

BLAST (basic local alignment search tool)

FASTA

BLAST (basic local alignment search tool) P-VALUE... P(score>S) PRAVDĚPODOBNOST VÝSKYTU PODOBNOSTI VĚTŠÍ NEŽ S V NÁHODNÝCH SEKVENCÍCH URČITÉ DÉLKY P(MSP(M,N)>S) = 1 - exp(-Kmn.exp(-lambda.S)) E-VALUE OČEKÁVANÝ POČET PODOBNOSTÍ KDE score>S Kmn.exp(-lambda.S)

BLAST (basic local alignment search tool) PAM150 Percent Accepted Mutations Substituční matice odvozena z předpokladu 150 mutací na 100 pozic sekvence BLOSUM65 BLOck SUbstitution Matrix Substituční matice odvozena ze sekvencí se 65% identitou PAM120 BLOSUM80 PAM250 BLOSUM45

BLAST (basic local alignment search tool)

>gi| |ref|XP_ |similar to protein kinase Length = 613 Score = 50.4 bits (119), Expect(2) = 2e-17 Identities = 26/54 (48%), Positives = 36/54 (66%), Gaps = 1/54 (1%) Query: 740 YVMVLEYANEGNLREYLEK-KFDTLQWENKIQMALDITRGLLCLHSRNIIHRDL 582 Y +V EY +EG+LR YL K + +L + I ALDI RG+ +HS+ +IHRDL Sbjct: 250 YCVVTEYLSEGSLRAYLHKLERKSLPLQKLIAFALDIARGMEYIHSQGVIHRDL 303

BLAST (basic local alignment search tool) BLAST (NCBI-BLAST WU-BLAST) BLASTN BLASTP BLASTX TBLASTN TBLASTX MEGABLAST PSI-BLAST PHI-BLAST SNPBLAST BLASTZ

BLAST (basic local alignment search tool) BLAT SESAM PATTERN_HUNTER PSST PRIMEX