BLAST (basic local alignment search tool) Vyhledává podobné sekvence v databázích. Stal se nástrojem pro všechno. Určitou dobu kolektiv autorů držel krok.

Slides:



Advertisements
Podobné prezentace
Algoritmy zpracování textů II
Advertisements

VISUAL BASIC Práce s řetězci Použitá literatura: Kvoch: Visual Basic 4.
Nový přístup k aplikacím Vema
Tutoriál EDS možnosti přizpůsobení Pro administrátory support.ebsco.com.
Lekce 7 Metoda molekulární dynamiky I Úvod KFY/PMFCHLekce 7 – Metoda molekulární dynamiky Osnova 1.Princip metody 2.Ingredience 3.Počáteční podmínky 4.Časová.
Business intelligence
DB1 – 9. cvičení Optimalizace dotazu Konkurenční přístup a deadlock Indexace Transakce.
D ATABÁZE N VID D ATABÁZE N VID N OVÁ SPECIALIZOVANÁ ONLINE SLUŽBA SPOLEČNOSTI O VID PRO OŠETŘOVATELSTVÍ A DALŠÍ NELÉKAŘSKÉ ZDRAVOTNICKÉ.
VYHLEDÁVÁNÍ NA PORTÁLU INFORMAČNÍCH ZDROJŮ PRO UTB XERXES.
Algoritmy zpracování textů II
1 Fast kd-tree Construction with an Adaptive Error-Bounded Heuristic Warren Hunt, William R. Mark, Gordon Stoll prezentace : Radek Richtr.
Technologie pro CI. Od technologií pro CI vyžadujeme především funkce vyhledávání v rozsáhlých databázích na základě libovolných dotazů, propojování a.
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Jiří Novák
INTERNETOVÉ VYHLEDÁVAČE
Praktikum základů genomiky, zima 2007 Základy genomiky I. Úvod do bioinformatiky Jan Hejátko Masarykova univerzita, Laboratoř funkční genomiky a proteomiky.
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
DOK.
Textový editor (další nástroje textového procesoru, export a import dat, PDF formát – čtení a tvorba)
LOGISTICKÉ SYSTÉMY 4/14.
B-strom je dynamická indexová struktura.
Základy práce na PC Ing. Jan Roubíček. Vyhledávání souborů VY_32_INOVACE_10_1_11_AP.
Richard Lipka Katedra informatiky a výpočetní techniky Fakulta aplikovaných věd Západočeská univerzita, Plzeň 1.
Vyváženost SOS Vyvážené SOS –Omezení délky vyhledávací cesty ve struktuře počtem logických stránek M O(f(M)): O(M), O(log M), O(1), … Složitost (počet.
Hledej Řešení „kurýrního problému“ zadaného firmou KURS. Alice Mašková, Jana Petrová, Vanesa Šlosárková, Jitka Štrausová, Lucie Vondráčková a Martin Balla.
IGrid index Roman Krejčík. Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání.
Efektivní vyhledávání na internetu
WWW – hypertextový informační systém
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Informace a Informatika. Terminologie Informatika – anglicky information science Zabývá se zpracováním informací nejen na počítačích. Informatika (počítačová.
Realtime identifikace osob podle hlasu
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
2 Petr Žitný znalosti.vema.cz 3 Báze znalostí Nová služba zákazníkům ▸Báze naplněná informacemi, ke které mají uživatelé přímý přístup Základní cíl ▸Poskytovat.
Databáze velké množství dat pevně dané struktury
Sekvenování.
Podnikání na Internetu internet - zdroj informací Letní semestr 2005 Jana Holá III.
F.I.S.H. hotovo.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
5. Polohové vytyčování Přesnost vytyčení polohy bodu polární metodou
Co je převodovka a převodový poměr?
REŠERŠNÍ STRATEGIE Mgr. Anna Vitásková.
Informační zdroje pro molekulární biologii M. Jurajda.
ANOPRESS Databáze TAM TAM (Plné texty českých novin a vybraných časopisů)
Digitální výukový materiál zpracovaný v rámci projektu „EU peníze školám“ Projekt:CZ.1.07/1.5.00/ „SŠHL Frýdlant.moderní školy“ Škola:Střední škola.
SEKVENCE A:MASAQSFYLL SEKVENCE B:MASGQWLLAS Které oblasti A a B jsou si nejvíce podobné ? Jsou si A a B víc podobné než A a C ? Která ze sekvencí X1,...,Xn.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Vývoj mikrosatelitních markerů (SSR) KBO/125 Jiří Košnar, katedra botaniky PřF JU, 2012 Kurz byl financován z projektu FRVŠ 1904/2012.
PCR Polymerase Chain Reaction
Informační zdroje pro volbu povolání Technika a technické vzdělávání 2.
Textový editor (další nástroje textového procesoru, export a import dat, PDF formát – čtení a tvorba)
TinWeb v12 Nové rysy TinWeb v12 RNDr. Vladimír Pávek
Praktikum z genetiky rostlin JS Genetické mapování mutace lycopodioformis Arabidopsis thaliana Genetické mapování genu odolnosti k padlí.
PHP – CYKLY, POLE. CYKLY V PHP Cykly se používají, chceme-li opakovat určitou činnost, několikráte za sebou, opakovaně provádět stejnou proceduru. Postupně.
Univerzitní informační systém VIII., Karlov 2009 Fulltextové vyhledávání v UIS Miroslav Prachař.
SEKVENOVÁNÍ DNA. Jedna z metod studia genů Využití v aplikovaných oblastech molekulární biologie – např. medicíně při diagnostice genetických chorob.
Zahradnická fakulta v Lednici S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2008 S 4 U – Seminář o Univerzitním informačním systému.
Databáze ● úložiště dat s definovaným přístupem ● typy struktury – strom, sekvence, tabulka ● sestává z uspořádaných záznamů ● databáze – struktura – záznam.
Přehled změn na portálu upgrade redakčního systému Marwel, nasazení modulu pro správu souborů a fulltextové vyhledávání
Ukládání dat biodiverzity a jejich vizualizace
Vyhledávání v Internetu
TIPY A RADY PRO PRÁCI S WEB OF SCIENCE – SLUŽBY DOSTUPNÉ PO REGISTRACI
Textový Editor.
C-síť (circle – net) Petr Kolman.
Přehled změn na portálu
Fulltextové vyhledávání
Přehled změn na portálu
Optimalizace SQL dotazů
ANOPRESS Databáze TAM TAM
Dominika verešová Kateřina Sapáková
Seznamy digitálních knihoven
MOŽNOSTI PORTÁLU KNIHOVNY.CZ NEJEN PRO KNIHOVNÍKY
Transkript prezentace:

BLAST (basic local alignment search tool) Vyhledává podobné sekvence v databázích. Stal se nástrojem pro všechno. Určitou dobu kolektiv autorů držel krok s potřebami uživatelů úpravami kódu (BLAST1.0 – BLAST2.0 – PSI- BLAST – MEGABLAST – BLASTZ). V současnosti se zdá, že lepších výsledků můžeme mnohdy dosáhnout použitím nových postupů šitých na míru daného problému.

Suboptimální nasazení programu BLAST Použití: Běžné vyhledávání. Problém: Blast nevyužívá možnosti zpracovat si předem databázy novými způsoby indexování Řešení: Použití programů, které používají asociativní pole nebo stromové struktury pro indexaci databázových sekvencí (SSAHA, MUMER, QUASAR)

Indexy a stromy INDEX TYPU POLE (vhodný pro “bohatý” index, fixní délku, časově kritické aplikace) AAAA AAAC AAAG INDEX TYPU STROM (vhodný pro “děravý” index, variabilní délku, je flexibilní) |=== AAAC | AAA |=== AAAG | |=== AAAA

Suboptimální nasazení programu BLAST Použití: Běžné vyhledávání. Problém: Blast nepracuje s optimání strukturou slova, čím trpí poměr citlivost/rychlost. Řešení: Použití programu PATTERN HUNTER

Pattern Hunter PATTERN HUNTERBLAST MODEL SLOVA ZÁVISLOST POZICPŘEKRYV

Pattern Hunter

Suboptimální nasazení programu BLAST Použití: Hledání primerů pro sekvenování a PCR (10-40bp) nebo oligonukleotidů pro microarray (25-100bp) Problém: BLAST prohledává DNA se slovy o velikosti 7 a víc. Při použití extrémně krátkých slov nalézá příliš velký počet irelevantních podobností a jejich spracování trvá neúnosně dlouho. Bez předpočítaného indexu je hledání velkého počtu podobností pomalé. Řešení: Použití programu PRIMEX

INDEX FILTRACE DP (N-W) 4 w + n -> 150Mbp (w=12) -> 167M (~650MB) ACGAGATGACGATGACGATGCGAT Probíhá na omezeném vzorku sekvencí Primex

ATAGTAGGTCCGTCGATA18 bp -> 3 slova po 6bp nastavením m1=1 chyby na slovo nalezneme spolehlivě v nejhorším GTATTAGGTACGTTGACAi řetězec s 5 chybami Sekvence se 6 chybami už nemusí být nalezena: GTATTAGATACGTTGACAnenalezena GTATTAGGTACGTTGACGnalezena Rozdělení vyhledávacího řetězce na menší segmenty urychlí výpočty tím, že u kratších lze efektivně využít rychlého indexu celé genomové databázy. Primex

Výkony vybraných vyhledávacích programů při hledání výskytu sekvence oligonukleotidu AAAAAATGATCAATTTACAT v genomu Arabidopsis thaliana (cca 100Mbp). Příponou -O jsou označeny programy, které byly nastaveny s nejmenší citlivostí. Přípona -S označuje programy, které v momentě dotazu běžely jako server. MISMATCHES PROGRAM TOTAL SEARCH TIME BLAST s BLAST-O 21 5 s FASTA s FASTA-O 1119 s BLAT 0080 s SSAHA 0071 s SSAHA-O 3110 s CGC FP-O 1110 s EMBOSS s EMBOSS-O 1114 s TACG 1149 s AGREP s AGREP s PRIMEX s PRIMEX-S (2,5) s PRIMEX-S (2,4) s PRIMEX-S (2,3) s PRIMEX-S (2,2) < 1 s PRIMEX-S (2,1) 11 0 << 1 s PRIMEX-SO (0,0) 11 << 1 s Primex

Vyhledané oligonukleotidy lze použít pro simulaci PCR reakce VPCR Virtual PCR Primex + Virtual PCR

Suboptimální nasazení programu BLAST Použití: Hledání pozice intronů a exonů (srovnávání mRNA s genomovou DNA) nebo vyhledávání domén proteinů Problém: BLAST vyhodnocuje příliš mnoho podobností, i když nás zajímají jenom ty, které jsou typické pro RNA/DNA. Pokud to ošetříme zvýšením parametrů X a S, stratíme krátké podobnosti. Nesnaží se určit přesnou hranici intronů a exonů nebo domén. Řešení: Použití programu BLAT, SIM4

BLAT P1 = M K T = int(H/K) P = 1 – (1-P1) T P = 1 – (1-M K ) T F = (Q-K+1)*(G/K)*(1/A) K K – délka k-meru H – délka úseku podobnosti (několik 100 bp) M – zhoda mezi sekvencemi (%identity/100) G – velikost databázy Q – velikost vyhledávací sekvence A – velikost abecedy K H Q P1 P F

BLAT

Suboptimální nasazení programu BLAST Použití: Hledání podobnosti mezi extrémně dlouhými sekvencemi Problém: Chybí indexování, BLAST jde rovnou na věc a hledá všechny HSP Řešení: Použití programů s indexy, které přistupují k analýze hierarchicky, nejprve rychle vyhledávají s nízkou citlivostí, později dpočítávají detaily (SSAHA, BLAT, MUMER)

Suboptimální nasazení programu BLAST Použití: Hledání podobnosti mezi vzdálenými proteinovými sekvencemi Problém: Proteiny jsou třírozměrné a jejich struktura a funkce často závisí na prostorově se doplňujících motivech sekvence a ne na existenci dlouhého lineárního řetězce aminokyselin Řešení: Použití programů, které nepracují s podobností na bázi Smith- Waterman, ale analyzují např. výskyt krátkých slov (PSST)

PSST Struktura sekvence znázorněna vektorem přítomnosti jednotlivých “slov” v=(1,0,0,1,....,1), kde každá pozice odpovídá určitému “slovu”. pi je normalizovaná frekvence výskytu daného slova a podobnost S(q,t) = suma (q i *t i *1/p i ) Vektory proteinů bez jakékoliv společné podsekvence na dané úrovni jsou ortogonální, S(q,t)=0. Pro identické proteiny S(q,q)= suma(1/pi). Pokud by všechny slova měla stejnou pravděpodobnost výskytu, pak by to bylo N*1/(1/N) = N 2 kde N je počet sledovaných nebo existujících slov.