Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Ing. Jiří Novák

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

BC. David Dudáš Obor: Projektový management a inženýring
Rekonstrukce povrchu objektů z řezů Obhajoba rigorózní práce 25. června 2003 Radek Sviták
 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.
Problematika a metody zpracování biomed. dat z pohledu jejich klasifikace Marcel Jiřina.
Multi-dimensional Sparse Matrix Storage J. Dvorský, M. Krátký, Katedra informatiky, VŠB – Technická univerzita.
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Zpracování seminárních a kvalifikačních prací
Zarovnávání biologických sekvencí
ROZHODOVACÍ PROCESY PRO VÍCECESTNÉ TELEMATICKÉ APLIKACE Filip Ekl
Algoritmy I Cvičení č. 4.
Dynamické okružní a rozvozní úlohy
Dynamické rozvozní úlohy
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Jiří Novák
Skip-List je datová struktura, která může být použita jako náhrada za vyvážené stromy. představují pravděpodobnostní alternativu k vyváženým stromům (struktura.
Nelineární projevy mechanických konstrukcí Petr Frantík Ú STAV STAVEBNÍ MECHANIKY F AKULTA STAVEBNÍ V YSOKÉ UČENÍ TECHNICKÉ V B RNĚ školitelé: Zbyněk Keršner.
T.A. Edison Tajemství úspěchu v životě není v tom, že děláme, co se nám líbí, ale, že nacházíme zalíbení v tom, co děláme.
SINUS KOSINUS. VLASTNOSTI GONIOMETRICKÝCH FUNKCÍ  Funkce sinus a kosinus patří mezi goniometrické funkce.  Goniometrické funkce tvoří skupina šesti.
B-strom je dynamická indexová struktura.
REDUKCE DAT Díváme-li se na soubory jako na text, pak je tento text redundantní. Redundance vyplývá z:  některé fráze nebo slova se opakují  existuje.
Shluková analýza.
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Novohradské statistické dny Poznámky k problematice určování počtu shluků Hana Řezanková Vysoká škola ekonomická v Praze.
Optické čočky kruhového průřezu Jan Konečný a Ondřej Mikuláš.
Biometrické Bezpečnostní Systémy Filip Orság Technologie rozpoznání mluvčího.
Odhady parametrů základního souboru
Richard Lipka Katedra informatiky a výpočetní techniky Fakulta aplikovaných věd Západočeská univerzita, Plzeň 1.
QT intervaly – metody detekce konce T vlny Jitka Jirčíková.
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Didaktické zásady výuky přírodopisu
IGrid index Roman Krejčík. Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání.
Shluková analýza.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 7. Metrické přístupové metody (MAM) 2. část – maticové a statické metody, D-index.
Lineární regrese.
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Realtime identifikace osob podle hlasu
Rozhodovací stromy.
Rozpoznávání v řetězcích
Základy zpracování geologických dat
Automatizovaná podpora výběru nástroje pro dobývání znalostí Jakub Štochl.
Definice fraktální (vnitřní) dimenze a její aplikace v databázích
Počítačová chemie (5. přednáška)
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
Kvantitativní metody výzkumu v praxi
Optické čočky kruhového průřezu Jan Konečný a Ondřej Mikuláš.
Vícerozměrný přístup pro indexování XML dat
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Podobnost trajektorií Jiří Jakl Úvod - využití Rozpoznáváni ručně psaných textů GPS navigace Analýza pohybu pracovníku v budovách Predikce.
Vyhledávání vzorů (template matching)
V experimentu měníme hodnotu jedné nebo několika veličin x i a studujeme závislost veličiny y. - např. měníme, ostatní x i bereme jako parametry ( , ,
Dita Matesová, David Lehký, Zbyněk Keršner
Metrické indexování vektorových modelů v oblasti Information Retrieval
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Dopravní dostupnost obcí v okrese Nový Jičín Prezentace ročníkového projektu Dopravní dostupnost obcí v okrese Nový Jičín Autor: Petr BALA Vedoucí: Dr.Ing.
Postup při empirickém kvantitativním výzkumu
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
ABSOLVENTSKÁ PRÁCE Název absolventské práce
Ověření modelů a modelování Kateřina Růžičková. Posouzení kvality modelu Ověření (verifikace) ● kvalitativní hodnocení správnosti modelu ● zda model přijatelně.
SOFTWAROVÁ PODPORA PRO VYTVÁŘENÍ FUZZY MODELŮ Knihovna fuzzy procedur Ing. Petr Želasko, VŠB-TU Ostrava.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
Ing. Milan Houška KOSA PEF ČZU v Praze
Hydraulika podzemních vod
Ing. Milan Houška KOSA PEF ČZU v Praze
Spojitá a kategoriální data Základní popisné statistiky
Proteomika Bruno Sopko.
Neuronové sítě.
Induktivní statistika
Transkript prezentace:

Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Ing. Jiří Novák

Program prezentace  Úvod –biologická motivace, základní pojmy  Hmotnostní spektrometrie –princip analýzy biomolekul –současné techniky interpretace dat –typické problémy  Navržená metoda –popis algoritmu –metrické přístupové metody –experimenty  Závěr a budoucí práce

Úvod  biologická motivace –živé organismy – DNA – proteiny  proteiny –stavba, funkce buněk –základní stavební jednotky – aminokyseliny –lineární sekvence aminokyselin (20 druhů)  peptidy –krátké sekvence

MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKF DKFKHLKSEDEMKASEDLK...  Mass Spectrometry (MS) – metoda pro identifikaci neznámých proteinových (peptidových) sekvencí  určuje hmotnosti neutrálních molekul po jejich převedení na nabité ionty, výstupem je hmotnostní spektrum  jednoduchá MS (jedno spektrum) x tandemová MS/MS (kolekce spekter) Hmotnostní spektrometrie

 princip interpretace: různé aminokyseliny ~ různé hmotnosti  2 základní přístupy: –DB známých nebo predikovaných proteinových sekvencí –grafové algoritmy  PMF (Peptide Mass Fingerprinting) –metoda peptidového mapování; jednoduchá MS –generování teoretických spekter proteinů z DB proteinových sekvencí  PFF (Peptide Fragment Fingerprinting) –metoda fragmentového mapování; analogie PMF pro MS/MS; přesnější –generování teoretického spektra pro každý peptid  identifikace nových sekvencí – překlad DNA Současné metody interpretace

 De Novo Sequencing –pro MS/MS spektra; přímá interpretace pouze pomocí grafu –vzdálenost peaků ~ hmotnost aminokyseliny –mnoho cest grafu ~ mnoho řešení, úspěšnost cca 30%  Problémy interpretace –nerozlišitelnost aminokyselin (či skupin) s podobnou hmotností –bodové mutace aminokyselin, posttranslační modifikace –chybějící peaky –šum (až 80%)

Schéma navržené metody

Navržená metoda (1) 1)Konstrukce DB –pro každou peptidovou sekvenci vygenerujeme např. teoretické hodnoty odpovídající y-iontům –vektory o předem definované dimenzi uložíme do DB (příp. rovnou indexujeme) 2)Heuristiky pro výběr peaků z experimentálních spekter –posledních k peaků –množina peaků odpovídající komplementárním b a y-iontům m(b i ) + m(y k-i ) = m p + 2

 Metrické přístupové metody (Metric Access Methods – MAMs) –pro indexování dat v multimediálních DB –v ideálním případě logaritmická složitost vyhledávání  Metrika –vlastnosti: reflexivita, pozitivita, symetrie a trojúhelníková nerovnost –vyjadřuje vzdálenost (podobnost) mezi teoretickými a experimentálními spektry  M-tree (Metric tree) –MAM; dynamický a vyvážený strom –organizuje objekty (vektory) do n-rozměrných hypersférických regionů –vnitřní uzly (směrovací záznamy) rout(O i ) = [O i, r(O i ), ptr(T(O i )), d(O i,par(O i ))] –listové uzly (odkazy na index. data) grnd(O i ) = [O i, oid(O i ), d(O i,par(O i ))] Metrické přístupové metody

Navržená metoda (2) 3)Vyhledávání s využitím MAM –rozsahový dotaz výběr všech objektů do specifikované vzdálenosti (radiusu) –k-NN dotaz výběr k nejbližších sousedních objektů –intervalový dotaz výběr objektů ve vymezené vzdálenosti (mezi min. a max. radiusem) vyhledávání peptidových modifikací – množina intervalových dotazů spolu (s maximovou nebo Hausdorffovou vzdáleností) chyby způsobené modifikacemi aminokyselin odpovídají přímo průměrným radiusům intervalových dotazů

Navržená metoda (3)  Eukleidovská vzdálenost – méně velkých posunů peaků často odpovídá větší vzdálenosti než více malých posunů  logaritmická vzdálenost – opak tj. málo výrazných odchylek vyjadřuje větší podobnost (pro interpretaci spekter výhodnější) 4)Skórování –kandidáti – generování teoret. spekter, nejvíce shodných peaků ~ výsledek x = {200,300,400,500} y = {200,300,460,500} z = {210,305,420,475}  Logaritmická vzdálenost – x a y jsou blíže než x a z  Eukleidovská vzdálenost – x a z jsou blíže než x a y

Experimenty  Testovací data –kolekce MS/MS spekter projektu Quartz - Amethyst & Opal lidské proteiny obsahují peptidové sekvence a jim odpovídající experimentálně získaná MS/MS spektra navrženy pro validaci algoritmů, které analyzují jednotlivé peptidové sekvence (nikoliv celé proteiny ze sady spekter)  Příklady provedených experimentů –porovnání vzdáleností Eukleidovská, maximová, Hausdorffova, logaritmická, kosinová podobnost –vhodnost použití sady intervalových dotazů pro vyhledávání peptidových modifikací –porovnání se současnými metodami (kvalita identifikace) a sekvenčním přístupem

Experimenty – porovnání vzdáleností amet: 533 spekter

Experimenty – intervalové dotazy amet: 773 spekter, opal: 622 spekter

Experimenty – porovnání s exist. metodami MASCOT – 62% (potvrz.) ProteinProspector – 72%  testovací sada: 50 spekter (testováno přes webové rozhraní)  používáme poměrně jednoduché heuristiky a skórování, přesto jsou výsledky kvalitativně srovnatelné s nejpoužívanějšími aplikacemi jako jsou MASCOT, ProteinProspector, …  zrychlení při použití (P)M-tree je řádově 10 3 oproti sekvenčnímu algoritmu – DB reálné velikosti (50 tis. proteinů ~ 2,5 mil. peptidů)

Závěr a budoucí práce  ověřeny byly možnosti použití metrických indexovacích metod pro identifikaci peptidových sekvencí z MS/MS spekter –interpretace – založena na vyhl. v DB známých sekvencí –metrika – vyjádření podobnosti spekter –indexovací metody – log. složitost vyhl.  budoucí práce –sofistikovanější heuristiky –nové metriky –skórovací schémata –testování na vetších sadách experimentálně získaných MS/MS spekter vhodných pro identifikaci celých proteinových sekvencí (nikoliv pouze jednotlivých peptidů)