Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilAneta Matějková
1
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Ing. Jiří Novák jirinovak@atlas.cz
2
Program prezentace Úvod –biologická motivace, základní pojmy Hmotnostní spektrometrie –princip analýzy biomolekul –současné techniky interpretace dat –typické problémy Navržená metoda –popis algoritmu –metrické přístupové metody –experimenty Závěr a budoucí práce
3
Úvod biologická motivace –živé organismy – DNA – proteiny proteiny –stavba, funkce buněk –základní stavební jednotky – aminokyseliny –lineární sekvence aminokyselin (20 druhů) peptidy –krátké sekvence
4
MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKF DKFKHLKSEDEMKASEDLK... Mass Spectrometry (MS) – metoda pro identifikaci neznámých proteinových (peptidových) sekvencí určuje hmotnosti neutrálních molekul po jejich převedení na nabité ionty, výstupem je hmotnostní spektrum jednoduchá MS (jedno spektrum) x tandemová MS/MS (kolekce spekter) Hmotnostní spektrometrie
5
princip interpretace: různé aminokyseliny ~ různé hmotnosti 2 základní přístupy: –DB známých nebo predikovaných proteinových sekvencí –grafové algoritmy PMF (Peptide Mass Fingerprinting) –metoda peptidového mapování; jednoduchá MS –generování teoretických spekter proteinů z DB proteinových sekvencí PFF (Peptide Fragment Fingerprinting) –metoda fragmentového mapování; analogie PMF pro MS/MS; přesnější –generování teoretického spektra pro každý peptid identifikace nových sekvencí – překlad DNA Současné metody interpretace
6
De Novo Sequencing –pro MS/MS spektra; přímá interpretace pouze pomocí grafu –vzdálenost peaků ~ hmotnost aminokyseliny –mnoho cest grafu ~ mnoho řešení, úspěšnost cca 30% Problémy interpretace –nerozlišitelnost aminokyselin (či skupin) s podobnou hmotností –bodové mutace aminokyselin, posttranslační modifikace –chybějící peaky –šum (až 80%)
7
Schéma navržené metody
8
Navržená metoda (1) 1)Konstrukce DB –pro každou peptidovou sekvenci vygenerujeme např. teoretické hodnoty odpovídající y-iontům –vektory o předem definované dimenzi uložíme do DB (příp. rovnou indexujeme) 2)Heuristiky pro výběr peaků z experimentálních spekter –posledních k peaků –množina peaků odpovídající komplementárním b a y-iontům m(b i ) + m(y k-i ) = m p + 2
9
Metrické přístupové metody (Metric Access Methods – MAMs) –pro indexování dat v multimediálních DB –v ideálním případě logaritmická složitost vyhledávání Metrika –vlastnosti: reflexivita, pozitivita, symetrie a trojúhelníková nerovnost –vyjadřuje vzdálenost (podobnost) mezi teoretickými a experimentálními spektry M-tree (Metric tree) –MAM; dynamický a vyvážený strom –organizuje objekty (vektory) do n-rozměrných hypersférických regionů –vnitřní uzly (směrovací záznamy) rout(O i ) = [O i, r(O i ), ptr(T(O i )), d(O i,par(O i ))] –listové uzly (odkazy na index. data) grnd(O i ) = [O i, oid(O i ), d(O i,par(O i ))] Metrické přístupové metody
10
Navržená metoda (2) 3)Vyhledávání s využitím MAM –rozsahový dotaz výběr všech objektů do specifikované vzdálenosti (radiusu) –k-NN dotaz výběr k nejbližších sousedních objektů –intervalový dotaz výběr objektů ve vymezené vzdálenosti (mezi min. a max. radiusem) vyhledávání peptidových modifikací – množina intervalových dotazů spolu (s maximovou nebo Hausdorffovou vzdáleností) chyby způsobené modifikacemi aminokyselin odpovídají přímo průměrným radiusům intervalových dotazů
11
Navržená metoda (3) Eukleidovská vzdálenost – méně velkých posunů peaků často odpovídá větší vzdálenosti než více malých posunů logaritmická vzdálenost – opak tj. málo výrazných odchylek vyjadřuje větší podobnost (pro interpretaci spekter výhodnější) 4)Skórování –kandidáti – generování teoret. spekter, nejvíce shodných peaků ~ výsledek x = {200,300,400,500} y = {200,300,460,500} z = {210,305,420,475} Logaritmická vzdálenost – x a y jsou blíže než x a z Eukleidovská vzdálenost – x a z jsou blíže než x a y
12
Experimenty Testovací data –kolekce MS/MS spekter projektu Quartz - www.thegpm.org Amethyst & Opal lidské proteiny obsahují peptidové sekvence a jim odpovídající experimentálně získaná MS/MS spektra navrženy pro validaci algoritmů, které analyzují jednotlivé peptidové sekvence (nikoliv celé proteiny ze sady spekter) Příklady provedených experimentů –porovnání vzdáleností Eukleidovská, maximová, Hausdorffova, logaritmická, kosinová podobnost –vhodnost použití sady intervalových dotazů pro vyhledávání peptidových modifikací –porovnání se současnými metodami (kvalita identifikace) a sekvenčním přístupem
13
Experimenty – porovnání vzdáleností amet: 533 spekter
14
Experimenty – intervalové dotazy amet: 773 spekter, opal: 622 spekter
15
Experimenty – porovnání s exist. metodami MASCOT – 62% (potvrz.) ProteinProspector – 72% testovací sada: 50 spekter (testováno přes webové rozhraní) používáme poměrně jednoduché heuristiky a skórování, přesto jsou výsledky kvalitativně srovnatelné s nejpoužívanějšími aplikacemi jako jsou MASCOT, ProteinProspector, … zrychlení při použití (P)M-tree je řádově 10 3 oproti sekvenčnímu algoritmu – DB reálné velikosti (50 tis. proteinů ~ 2,5 mil. peptidů)
16
Závěr a budoucí práce ověřeny byly možnosti použití metrických indexovacích metod pro identifikaci peptidových sekvencí z MS/MS spekter –interpretace – založena na vyhl. v DB známých sekvencí –metrika – vyjádření podobnosti spekter –indexovací metody – log. složitost vyhl. budoucí práce –sofistikovanější heuristiky –nové metriky –skórovací schémata –testování na vetších sadách experimentálně získaných MS/MS spekter vhodných pro identifikaci celých proteinových sekvencí (nikoliv pouze jednotlivých peptidů)
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.