DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ

Slides:



Advertisements
Podobné prezentace
Obecně použitelné odvození
Advertisements

Třídění dat OA a VOŠ Příbram. Třídění  rozdělení jednotek souboru do takových skupin, aby co nejlépe vynikly charakteristické vlastnosti zkoumaných jevů.
PrecisPlanner 3D Software pro plánování přesnosti měření v IG
Aminokyseliny.
Lekce 7 Metoda molekulární dynamiky I Úvod KFY/PMFCHLekce 7 – Metoda molekulární dynamiky Osnova 1.Princip metody 2.Ingredience 3.Počáteční podmínky 4.Časová.
B130P16: Praktické základy vědecké práce Katedra experimentální biologie rostlin PřF UK SciVerse - plnotextové vyhledávání.
Výukový matriál byl zpracován v rámci projektu OPVK 1.5 EU peníze školám registrační číslo projektu:CZ.1.07/1.5.00/ Autor:Mgr. Daniela Hasníková.
Zarovnávání biologických sekvencí
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Jiří Novák
Praktikum základů genomiky, zima 2007 Základy genomiky I. Úvod do bioinformatiky Jan Hejátko Masarykova univerzita, Laboratoř funkční genomiky a proteomiky.
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
Řadicí algoritmy autor: Tadeáš Berkman.
Teorie psychodiagnostiky a psychometrie
Vývoj nových metod a nástrojů pro metadynamické simulace
Poskytuje daný generátor opravdu posloupnost náhodných čísel?
IGrid index Roman Krejčík. Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání.
Projekt HUGO – milníky - I
ZÁKLADNÍ SOUBOR Základní soubor (populace) je většinou myšlenková konstrukce, která obsahuje veškerá data, se kterými pracujeme a není vždy snadné jej.
Nová metoda pro generování 2D farmakoforového modelu David Hoksza 1,2, Daniel Svozil 2 SIRET Research Group MFF UK Laboratoř informatiky a chemie FCHT.
Účel procedury: První a závazný krok jakékoli seriozní komparativní studie. Umožňuje vyloučit možnost, že distribuce studovaného znaku (vlastnosti, vzorce.
BÍLKOVINY (AMINOKYSELINY)
Biostatistika 6. přednáška
Makrozoobentos a klasifikace toků Jarkovský J. 2,3, Kubošová K. 2,3, Zahrádková S. 1, Brabec K. 1, Kokeš J. 4, Klapka R. 2,3 1) Ústav botaniky a zoologie,
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Dolce: Databáze lokálních konformací DNA
B130P16: Praktické základy vědecké práce Katedra experimentální biologie rostlin PřF UK iHOP - plnotextové vyhledávání Pubmed.
Kompresní metoda ACB Associative Coder of Buyanovsky autor: George Buyanovsky připravil Tomáš Skopal podle knihy „Data Compression“ od D. Salomona, 1997,
BLAST (basic local alignment search tool) Vyhledává podobné sekvence v databázích. Stal se nástrojem pro všechno. Určitou dobu kolektiv autorů držel krok.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Jak vyhledávat informace na Internetu?
JAK NAJÍT NEJLEPŠÍ STROM
Alternativy k evolučním optimalizačním algoritmům Porovnání genetických algoritmů a některých tradičních stochastických optimalizačních přístupů David.
Počítačová chemie (5. přednáška)
Normální rozdělení a ověření normality dat
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
Informační zdroje pro molekulární biologii M. Jurajda.
Molekulárně biologické databáze
Molekulárně biologické databáze Pro zajímavost, nebude součástí zkoušky… Důležité, pravděpodobně bude u zkoušky…
SEKVENCE A:MASAQSFYLL SEKVENCE B:MASGQWLLAS Které oblasti A a B jsou si nejvíce podobné ? Jsou si A a B víc podobné než A a C ? Která ze sekvencí X1,...,Xn.
Vyhledávání vzorů (template matching)
Jan Pačes Ústav molekulární genetiky Jiří Vondrášek Ústav organické chemie a biochemie Alignment I
CG020 Genomika Bi7201 Základy genomiky Přednáška 1
Praktikum z genetiky rostlin JS Genetické mapování mutace lycopodioformis Arabidopsis thaliana Genetické mapování genu odolnosti k padlí.
Inferenční statistika - úvod
Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.
SOŠO a SOUŘ v Moravském Krumlově
Bílkoviny-Proteiny Přírodovědný seminář – chemie 9. ročník Základní škola Benešov, Jiráskova 888 Ing. Bc. Jitka Moosová.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Ukládání dat biodiverzity a jejich vizualizace
Obecně použitelné odvození
Induktivní statistika - úvod
Molekulárně-biologické databáze
Induktivní statistika
Molekulárně biologické databáze
Induktivní statistika
PŘEHLED AMINOKYSELIN Cys Gly Lys Trp Met Ala Arg Phe Asp Val His Glu
Fylogenetická evoluční analýza
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
Lékařská chemie Aminokyseliny Peptidy, proteiny Primární, sekundární, terciární a kvartérní struktura proteinů.
Studium lidského genomu
پروتئین ها.
Statistika a výpočetní technika
Algoritmizace a datové struktury (14ASD)
Lékařská chemie Aminokyseliny.
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Transkript prezentace:

DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ MARIAN NOVOTNÝ MOLEKULÁRNÍ TAXONOMIE 2010

PŘEDNÁŠEJÍCÍ Mgr. Marian NOVOTNÝ, PhD. vystudoval odbornou biologii na PřF UK, diplomka v laboratoři doc. Folka doktorát na Uppsalské univerzitě se specializací strukturní bioinformatika (Gerard Kleywegt) Marie Curie Fellow na Evropském Bioinformatickém Institutu (Janet Thornton & Roman Laskowski) ornitolog amatér

OSNOVA co je substrát pro molekulární taxonomii? kde se shromažďují data? jak data vyhledávat ?

REKONSTRUKCE EVOLUČNÍ HISTORIE rekonstrukce na základě srovnávání znaků v molekulární taxonomii se používají sekvence sekvence (DNA, RNA, proteiny) se srovnávají tzv. alignmentem http://lgimages.s3.amazonaws.com/data/imagemanager/7793/phylotree1.gif

KDE NAJÍT SEKVENCE?

BIOINFORMATICKÉ DATABÁZE úložiště dat (volně) dostupné pro kohokoliv snadno k nalezení lednové číslo Nucleid Acid Research (NAR) http://nar.oxfordjournals.org/content/vol38/suppl_1/index.dtl

LEDNOVÉ ČÍSLO NAR Nucleotide Sequence Databases RNA sequence databases Protein sequence databases Structure Databases Genomics Databases (non-vertebrate) Metabolic and Signaling Pathways Human and other Vertebrate Genomes Human Genes and Diseases Microarray Data and other Gene Expression Databases Proteomics Resources Other Molecular Biology Databases Organelle databases Plant databases Immunological databases

VLASTNOSTI DATABÁZE četnost aktualizace dat četnost aktualizace software redundance anotace dat anotace databáze

DNA DATABÁZE GenBank(NCBI) -112 Gb ve 112 mil. sekvencí - anotovaných EMBL (EBI) - 280 Gb DDJB (Japonsko)

MÁLO ANOTOVANÁ SEKVENCE

ANOTOVANÁ SEKVENCE

GENOMOVÉ DATABÁZE http://www.ensembl.org/index.html http://www.ncbi.nlm.nih.gov/sites/entrez?db=genome http://www.ensembl.org/index.html http://vega.sanger.ac.uk/index.html http://genome.ucsc.edu/ http://www.yeastgenome.org/

PROTEINOVÉ DATABÁZE Uniprot - Swissprot + TrEMBL - 10,5 mil. sek. Swiss-prot - anotováno, ~510 000 sekvencí GenPept - překládaný GenBank

UNIPROT + TREMBL AMINO ACID COMPOSITION 2.1 COMPOSITION IN PERCENT FOR THE COMPLETE DATABASE ALA (A) 8.57 GLN (Q) 3.88 LEU (L) 9.81 SER (S) 6.72 ARG (R) 5.47 GLU (E) 6.14 LYS (K) 5.30 THR (T) 5.61 ASN (N) 4.17 GLY (G) 7.08 MET (M) 2.45 TRP (W) 1.31 ASP (D) 5.28 HIS (H) 2.20 PHE (F) 4.03 TYR (Y) 3.06 CYS (C) 1.29 ILE (I) 6.00 PRO (P) 4.74 VAL (V) 6.71 ASX (B) 0.000 GLX (Z) 0.000 XAA (X) 0.06

JAK DATA VYHLEDÁVAT ?

EXISTUJÍ PŘÍBUZNÉ SEKVENCE A KDE JE NAJÍT? >ASTAKINE MKMRGVSVGVLVVAMMSGLAMAGSCNSQEPDCGPSECCLQGWMR YSTRGCAPLGEAGSSCNVFTQAPVKGFYIGMCPCRAGLVCTRPSATCQLPSQDNTLDSYY EXISTUJÍ PŘÍBUZNÉ SEKVENCE A KDE JE NAJÍT?

HLEDÁNÍ V DATABÁZÍCH - ALGORITMY tradiční algoritmy (Needleman-Wunsch, Smith-Waterman) pomalé pro prohledávání velkých databází používány heuristické metody - rychle vede k výsledku, který se blíží optimálnímu řešení (ale nezaručuje jej) -> pro vyšší rychlost je obětována přesnost (rule of thumb) v případě sekvenčního srovnávání se metoda vzdává jistoty nalezení optimálního alignmentu, aby v krátkém čase provedla srovnání se všemi sekvencemi v databázi (50 - 100x rychlejší) klasickými heuristickými metodami jsou FASTA a BLAST obě metody použitelné pro DNA i proteinové sekvence

FASTA metoda popsaná v 80. letech 20. století (Lipman & Pearson) rychlá, heuristická metoda (na úkor senzitivity), globální alignment zjednodušení v první fázi, sekvence rozděleny na krátké úseky program generuje všechny možné “k-tuples” o délce k z dané sekvence k = 1-2 pro proteiny, k = 4-6 pro DNA k-tuples jsou porovnávány s k-tuples sekvencí v databázích

FASTA hledání SHOD v k-tuples skórováni shod pomocí skórovací tabulky (Blosum 50) a rozšíření alignmentu (bez mezer) vysoce skórující shody vybrány vybere úseky, které budou součástí alignmentu dynamické programování pro konečný alignment (mezery)

BLAST BLAST = Basic Local Alignment Search Tool Altschul et al., 1990 sekvence rozděleny na slova (words) a slova skórována vůči databázi všech slov slova skórována skórovací tabulkou (Blosum 62) a jen ty, které dosáhnou předem nadefinovaného minimálního skóre (treshold) jsou dále používány slova se skóre větším než treshold nemusí nutně obsahovat jen shody ( na rozdíl od Fasty) v prvním kroku se porovnávají slova bez mezer

BLAST - HSP HSP - high scoring pair vyber jen taková “slova”, která dosahují alespoň skóre X (treshold) PEG versus PQA PEQ má s Blosum 62 skóre 15, PQA jen 12 pokud si stanovíme treshold 13, tak budeme dále hledat jen slovo PEQ

BLAST II takto vybráná slova jsou hledána v databázi modifikovaným Smith- Watermanem (50 x rychlejší) HSP jsou dále rozšiřovány na obě strany dokud skóre roste v posledním kroku jsou nejlépe skórující páry (HSP`s) podrobeny dynamickému programování, které produkuje výsledné skóre a alignment vzhledem k rostoucí velikosti databází je třeba algoritmus neustále modifikovat (dvě shody v okně definované velikosti) obvykle citlivější než FASTA implementován jako server na řadě míst (NCBI, EBI)

VERZE BLASTU blastn - hledá s DNA sekvencí (query) v DNA databázi blastp - hledá s proteinovou sekvencí v proteinové databázi blastx - hledá s DNA sekvencí (6 rámců) v proteinové databázi tblastn - hledá s proteinovou sekvencí v DNA databázi tblastx - překládaná DNA v překládané DNA databázi megablast - víc query najednou

BLAST - VÝBĚR databáze - DNA x protein, anotovaná x kompletní, strukturní, genomové, specializované (protilátky) ... organismus datum - sekvence za poslední dva týdny skórovací tabulka - blosum 62 velikost slova low-complexity region filter - často P, D, N, E - false positive “default”nastavení algoritmu vhodné ve většině případů

BLOSUM BLOSUM 80 - tabulka vypočítaná na základě alignmentu bloku sekvencí s identitou 80 % BLOSUM 62 - tabulka vypočítaná na základě alignmentu bloku sekvencí s identitou 62 %

BLOSUM VERSUS PAM PAM 250 PAM 10 BLOSUM 90 BLOSUM 62 VELMI PŘÍBUZNÍ VZDÁLENĚ PŘÍBUZNÍ

VÝZNAMNOST NÁLEZU optimální alignment lze nalézt pro jakékoliv dvě sekvence dvě náhodné DNA sekvence = ~ 25% SI dvě náhodné proteinové sekvence = ~ 5% SI jak určit, že je alignment statisticky významný ?

PARAMETRY VÝZNAMNOSTI P-value E-value pouze statistická významnost skóre -> biologickou relevanci záhodno ověřovat experimentálně

P-VALUE P-value - pravděpodobnost, že sekvence budou srovnány s nalezeným nebo vyšším skóre a zároveň nebudou příbuzné (false positive hit) P-value - pravděpodobnost, že bude skóre x nebo vyššího dosaženo náhodou pro účely výpočtu lze náhodu simulovat přeskládáváním sekvencí nebo výběrem vzorku z databáze druhá možnost lépe odpovídá realitě a poskytuje lepší výsledky (především u DNA)

EVD rozložení skóre lokálních alignmentů nepříbuzných sekvencí neodpovídá normálnímu rozdělení, ale rozdělení podle extrémních hodnot (EVD) při normálním rozdělení by docházelo k přeceňování významu dosažených skóre Dundas et al. BMC Bioinformatics 2007

P-VALUE P-value (S>x) = 1-exp (-exp (-λ(x-u))), u = charakteristická hodnota = Kmn/λ m,n = délky sekvencí; K = konstanta; λ = “decay factor” K a λ mohou být kalkulovány z vlastností skórovací tabulky

E-VALUE E-value = pravděpodobnost, že bude dosaženo skóre x nebo vyššího náhodou v databázi dané velikosti E-value = P-value x N ; velikost databáze příklad: databáze o miliónu sekvencí a P-value = 10-6 cutoff (expect treshold) parametr v BLASTU - udává kolik lze průměrně očekávat false positives v databázi dané velikosti -> způsob jak vyvažovat senzitivitu a selektivitu nižší hodnota cutoff zvyšuje selektivitu, ale snižuje senzitivitu E-value = 10-6 x 106 =1

BLAST / EVOLUČNÍ VZDÁLENOST říká nám BLAST něco o příbuznosti nalezených sekvencí ? Je první “hit” evolučně nejpříbuznější query (hledané sekvenci)? BLAST většinou nalezá příbuzné sekvence nejpříbuznější sekvence však mohou chybět v databázi lokální alignment - často skóruje nejlépe vzdálené příbuzné 7 % sekvencí E.coli mělo nejlépe skórující sekvenci mimo Bacteria

2JTK

SEQUENCE IDENTITA/HOMOLOGIE NEHOMOLOGNÍ PROTEINY ROST, 1999

SEQUENCE IDENTITA/HOMOLOGIE HOMOLOGNÍ PROTEINY ROST, 1999

SEQUENCE IDENTITA/HOMOLOGIE sekvenční identita > 35% - pravděpodobně homolog sekvenční identita = 20-35% (“twilight zone”; Doolittle) - může být homolog sekvenční identita < 20% - “midnight zone” (Rost) - sekvence zcela nedostatečná k určení homologie

Average sequence identity of random alignments - 5.6 % Sander et al., preprint Average sequence identity of random alignments - 5.6 % Average sequence identity of remote homologues - 8.5 %

SSEARCH pokud máte moře času nebo počítačový klastr nebo jste zoufalí rigorózní Smith-Waterman - local alignment v databázi

DALŠÍ METODY HLEDÁNÍ V DATABÁZÍCH profilové metody HMM modely

PROFILY modifikují skórovací tabulky specificky pro skupiny proteinů a pozici v alignmentu (např. globiny) pro každou pozici v alignmentu jsou generovány specifická skóre jak pro záměnu za jakoukoliv aa, tak pro inzerci nebo deleci Prof (pos,aa) = Σtype N(pos,type) x S(type, aa) x 10 N(pos,type) = podíl výskytu aa x na pozici y S(type, aa) = skóre skórovací tabulky pro zaměňovaný pár

PŘÍKLAD PROFILU v alignmentu globinů se na pozici 3 vyskytuje 3x Ala, 6x Val, 1x Ile, používáme tabulku Blosum 62 jaké bude profilové skóre pro výskyt Ile a His ? N(x,A) = 0.3, N(x,V) = 0.6, N(x, I) = 0.1 S(A,I) = -1, S(V,I) = 3, S(I,I) = 4 S(A,H) = -2, S(V,H) = -3, S(I,H) = -3 Prof (x, I) = 0.3 x -1 + 0.6 x 3 + 0.1 x 4 = 2.1 x 10 (v profilu) = 21 ( -1, 3, 4) Prof (x, H) = 0.3 x -2 + 0.6 x -3 + 0.1 x -3 = -2.7 x 10 = -27 (-2, -3, -3)

PSI-BLAST PSI-BLAST = Position Specific Iterative Blast Altschul et al., 1997 profilová metoda, používá Position Specific Scoring Matrix (PSSM) v prvním kole klasický BLAST, z vysoko skórujících alignmentů je generována PSSM v dalším kole hledání je už použita nová matrice a následně znovu generována nová PSSM opakováno libovolně dlouho (až ke konvergenci) benchmark metoda

HMM HMM = Hidden Markov Model profilová metoda, používána při rozhodování, zda protein spadá do jisté skupiny proteinů, typicky pro sekvence s nízkou %SI velmi citlivá metoda, která vytváří statistický model pro definovanou skupinu sekvencí na základě “tréninku” na sekvencích patřících do jedné skupiny (globiny) generuje pravděpodobnost nejen pro jednotlivé záměny a inzerce a delece, ale i pro přechody mezi nima dovede do modelu zahrnout i aminokyseliny, které se v tréninkové skupině nevyskytují alignment s největší pravděpodobností je optimální posuzuje jak dobře daná sekvence odpovídá modelu

HMM http://hmmer.janelia.org/

SHRNUTÍ databáze by měly být pravidelně updatovány přehled dostupných biologických databází vždy v lednovém čísle NAR řada velmi specializovaných databází hledání v databázích povětšinou heuristickými metodami standard dnes BLAST nutno hodnotit statistickou významnost nálezu citlivější metodou PSI-Blast nebo HMM metody