Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Jiří Novák

Slides:



Advertisements
Podobné prezentace
Paralelní výpočet SVD s aplikacemi pro vyhledávání informací
Advertisements

Nový přístup k aplikacím Vema
Překlad Bath profilu 2.0 Martin Vojnar
Rekonstrukce povrchu objektů z řezů Obhajoba rigorózní práce 25. června 2003 Radek Sviták
ALGO – Algoritmizace 1. cvičení
Multi-dimensional Sparse Matrix Storage J. Dvorský, M. Krátký, Katedra informatiky, VŠB – Technická univerzita.
Třídění Seminář IVT. Definice uspořádání skupiny dat (záznamů) dle daného klíče vzestupně (od nejmenší do největší hodnoty klíče) sestupně (od největší.
Genetické algoritmy [GA]
Zarovnávání biologických sekvencí
P‑value ano, či ne? Roman Biskup
ROZHODOVACÍ PROCESY PRO VÍCECESTNÉ TELEMATICKÉ APLIKACE Filip Ekl
Algoritmy I Cvičení č. 4.
1 Fast kd-tree Construction with an Adaptive Error-Bounded Heuristic Warren Hunt, William R. Mark, Gordon Stoll prezentace : Radek Richtr.
Dynamické okružní a rozvozní úlohy
Dynamické rozvozní úlohy
Zkoušení mechanických soustav
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Ing. Jiří Novák
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
Metody řazení s lineární časovou složitostí
Skip-List je datová struktura, která může být použita jako náhrada za vyvážené stromy. představují pravděpodobnostní alternativu k vyváženým stromům (struktura.
FORMALIZACE PROJEKTU DO SÍŤOVÉHO GRAFU
Získávání informací Získání informací o reálném systému
Řadicí algoritmy autor: Tadeáš Berkman.
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Biometrické Bezpečnostní Systémy Filip Orság Technologie rozpoznání mluvčího.
Algoritmy vyhledávání a řazení
Časová složitost algoritmů
IGrid index Roman Krejčík. Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání.
Fázová analýza Polymorfismus Izomorfismus Omezení na krystalické látky.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 7. Metrické přístupové metody (MAM) 2. část – maticové a statické metody, D-index.
Metody výběru variant Používají se pro výběr v případě více variant řešení stejného problému Lze vybírat dle jednoho nebo více kritérií V případě více.
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Tvorba simulačních modelů. Než vznikne model 1.Existence problému 2.Podrobnosti o problému a o systému 3.Jiné možnosti řešení ? 4.Existence podobného.
Algoritmus a jeho vlastnosti
Základy zpracování geologických dat
Rozhodovací proces, podpory rozhodovacích procesů
Práce s excelem.
Odvození zarovnání více řetězců z párového zarovnání, SP-skóre Ondřej Kazík 2008.
Počítačová chemie (5. přednáška)
Databázové systémy Přednáška č. 5 Datové typy a Fyzická organizace dat.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
Plánování trajektorie pro bezpilotní letoun za účelem sledování pozemních objektů pomocí inerciálně stabilizované kamerové platformy Michal Kreč Vedoucí.
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
IBM - CVUT Student Research Projects Google search by voice Tomáš Losert – Karel Beyr –
Vícerozměrný přístup pro indexování XML dat
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Prostorové datové struktury
Podobnost trajektorií Jiří Jakl Úvod - využití Rozpoznáváni ručně psaných textů GPS navigace Analýza pohybu pracovníku v budovách Predikce.
Vyhledávání vzorů (template matching)
Chiroptické metody E - vektor elektrického pole
Autoři:Jakub Doležal, Jiří Štěpanovský.  Harmony search v C++  Účelová funkce Sammonova zobrazení  Využití Bergmannových divergencí  Numerické experimenty.
HMOTNOSTNÍ SPEKTROMETRIE
Metrické indexování vektorových modelů v oblasti Information Retrieval
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Návrh a implementace algoritmů pro údržbu,
Dopravní dostupnost obcí v okrese Nový Jičín Prezentace ročníkového projektu Dopravní dostupnost obcí v okrese Nový Jičín Autor: Petr BALA Vedoucí: Dr.Ing.
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
Perzistence XML dat Kamil Toman
Soustavy ukazatelů – úvod
Databáze ● úložiště dat s definovaným přístupem ● typy struktury – strom, sekvence, tabulka ● sestává z uspořádaných záznamů ● databáze – struktura – záznam.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
Aplikace radiálních bázových funkcí v počítačové grafice a zpracování obrazu Karel Uhlíř Karel Uhlíř,
C-síť (circle – net) Petr Kolman.
Úlohy o podobnosti objektů, mnohorozměrné škálování
Ing. Milan Houška KOSA PEF ČZU v Praze
Číslo projektu CZ.1.07/1.5.00/ Číslo materiálu
Proteomika Bruno Sopko.
Induktivní statistika
Transkript prezentace:

Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Jiří Novák

Úvod  proteiny –lineární sekvence aminokyselin –DNA (20 různých aminokyselin) –peptidy  hmotnostní spektrometrie (mass spectrometry, MS) –metoda pro identifikaci neznámých proteinových sekvencí –určuje hmotnosti molekul a molekulových fragmentů po jejich převedení na ionty – hmotnostní spektrum –jednoduchá MS x tandemová MS/MS  základ interpretace spekter –různé aminokyseliny ~ různé hmotnosti

Hmotnostní spektra - příklad  jednoduchá MS –rozdělení neznámého proteinu na peptidy –specificita dělení sekvence MGLSDGEWQLVLNVWGK|VEADIPGHGQEVLIR|LFK|GHPETLEK|FDK| FK|HLK|SEDEMK|ASEDLK|...  tandemová MS/MS –modernější, rozšíření jednoduché MS –spektrum ~ peptid; sada spekter ~ protein –fragmenty: y, b-ionty

Cíl práce  hmotnostní spektrometrie – proteinové sekvence – vlastnosti proteinů  Cíl: provést analýzu stávajících metod interpretace hmotnostních spekter a prozkoumat možnosti využití metrických indexovacích metod.  Proč metrické přístupové metody:  interpretace – DB  metrika – podobnost spekter  index – log. složitost

Současné metody interpretace  PMF (Peptide Mass Fingerprinting) –jednoduchá MS; DB známých proteinových sekvencí –generování teoretických hmotností peptidů; porovnání s experimentálním spektrem (match např. >= 5 peaků) –velikost DB roste – náhodné hity  PFF (Peptide Fragment Fingerprinting) –analogie pro MS/MS; přesnější –párujeme fragmetová spektra s peptidy –skórování: SPC (Shared Peak Count), spektrální alignment (zarovnávání spekter – dyn. prog.), … –identifikace nových sekvencí – 6 rámcový překlad DNA

Současné metody interpretace  De Novo Sequencing –pro MS/MS spektra; přímá interpretace pouze pomocí grafu –vzdálenost peaků ~ hmotnost aminokyseliny –mnoho cest grafu ~ mnoho řešení, úspěšnost cca 30% –výhodou DB přístupu – redukce počtu řešení  Sequence Tag –kombinace; určíme tag (De Novo či ručně), pak hledáme v DB  Problémy interpretace –nerozlišitelnost aminokyselin (či dvojic) s podobnou hmotností –bodové mutace aminokyselin, posttranslační modifikace –chybějící peaky y, b-iontů –šum (až 80%)

Metrické přístupové metody  M-tree –dynamický, vyvážený strom –pro index. objektů využívá vlastnosti metrických prostorů –vnitřní uzly (směrovací záznamy) rout(O i ) = [O i, r(O i ), ptr(T(O i )), d(O i,par(O i ))] –listové uzly (odkazy na index. data) grnd(O i ) = [O i, oid(O i ), d(O i,par(O i ))]  PM-tree –zmenšení metrických regionů, globální množina pivotů –rout(O i ) navíc pole HR (prstence) –grnd(O i ) navíc pole PD (vzdál. O i od pivotů) –|HR| = 0, |PD| = 0 ~ M-tree

Požadavky na řešení problému  metrika – reflex., pozit., sym., trojúhelníková nerovnost (INEQ)  algoritmy pro vyhodnocování podobnosti spekter – časová náročnost (dyn. prog.) a nesplňují INEQ  výpočet vzdál. se použ. často – jednoduchost, rychlost  jednoduchá metrika – množina kandidátů; aplikujeme skórovací systém nebo složitější alg.

Navržená metoda  PFF; klíčová je identifikace peptidu z MS/MS spektra  konstrukce DB –teoretické m/z pro y-ionty (a b-ionty)  heuristiky –např. výběr posledních k peaků, hledání párových y a b-iontů m(b i ) + m(y k-i ) = m p + 2, apod.  vyhledávání –rozsahový nebo k-NN dotaz –modif. peptidy – intervalové dotazy a max. nebo Hauss. Metrika

Experimenty a zhodnocení výsledků MASCOT – 68%, zaruč. 62% ProteinProspector – 72%

Závěr  DB reálné velikosti („všech“ proteinů člověka; 50 tis. proteinů ~ 2.5 mil. peptidů) – dosahuje zrychlení vyhled. cca 1000x oproti sekv. průchodu  úspěšnost srovnatelná se současnými vyhledávači (MASCOT, ProteinProspector)  sofistikovanější heuristiky, hledání vhodnějších metrik – zvýšení kvality identifikace

Děkuji za pozornost Jiří Novák