Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Ing. Jiří Novák

Podobné prezentace


Prezentace na téma: "Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Ing. Jiří Novák"— Transkript prezentace:

1 Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Ing. Jiří Novák

2 Program prezentace  Úvod –biologická motivace, základní pojmy  Hmotnostní spektrometrie –princip analýzy biomolekul –současné techniky interpretace dat –typické problémy  Navržená metoda –popis algoritmu –metrické přístupové metody –experimenty  Závěr a budoucí práce

3 Úvod  biologická motivace –živé organismy – DNA – proteiny  proteiny –stavba, funkce buněk –základní stavební jednotky – aminokyseliny –lineární sekvence aminokyselin (20 druhů)  peptidy –krátké sekvence

4 MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKF DKFKHLKSEDEMKASEDLK...  Mass Spectrometry (MS) – metoda pro identifikaci neznámých proteinových (peptidových) sekvencí  určuje hmotnosti neutrálních molekul po jejich převedení na nabité ionty, výstupem je hmotnostní spektrum  jednoduchá MS (jedno spektrum) x tandemová MS/MS (kolekce spekter) Hmotnostní spektrometrie

5  princip interpretace: různé aminokyseliny ~ různé hmotnosti  2 základní přístupy: –DB známých nebo predikovaných proteinových sekvencí –grafové algoritmy  PMF (Peptide Mass Fingerprinting) –metoda peptidového mapování; jednoduchá MS –generování teoretických spekter proteinů z DB proteinových sekvencí  PFF (Peptide Fragment Fingerprinting) –metoda fragmentového mapování; analogie PMF pro MS/MS; přesnější –generování teoretického spektra pro každý peptid  identifikace nových sekvencí – překlad DNA Současné metody interpretace

6  De Novo Sequencing –pro MS/MS spektra; přímá interpretace pouze pomocí grafu –vzdálenost peaků ~ hmotnost aminokyseliny –mnoho cest grafu ~ mnoho řešení, úspěšnost cca 30%  Problémy interpretace –nerozlišitelnost aminokyselin (či skupin) s podobnou hmotností –bodové mutace aminokyselin, posttranslační modifikace –chybějící peaky –šum (až 80%)

7 Schéma navržené metody

8 Navržená metoda (1) 1)Konstrukce DB –pro každou peptidovou sekvenci vygenerujeme např. teoretické hodnoty odpovídající y-iontům –vektory o předem definované dimenzi uložíme do DB (příp. rovnou indexujeme) 2)Heuristiky pro výběr peaků z experimentálních spekter –posledních k peaků –množina peaků odpovídající komplementárním b a y-iontům m(b i ) + m(y k-i ) = m p + 2

9  Metrické přístupové metody (Metric Access Methods – MAMs) –pro indexování dat v multimediálních DB –v ideálním případě logaritmická složitost vyhledávání  Metrika –vlastnosti: reflexivita, pozitivita, symetrie a trojúhelníková nerovnost –vyjadřuje vzdálenost (podobnost) mezi teoretickými a experimentálními spektry  M-tree (Metric tree) –MAM; dynamický a vyvážený strom –organizuje objekty (vektory) do n-rozměrných hypersférických regionů –vnitřní uzly (směrovací záznamy) rout(O i ) = [O i, r(O i ), ptr(T(O i )), d(O i,par(O i ))] –listové uzly (odkazy na index. data) grnd(O i ) = [O i, oid(O i ), d(O i,par(O i ))] Metrické přístupové metody

10 Navržená metoda (2) 3)Vyhledávání s využitím MAM –rozsahový dotaz výběr všech objektů do specifikované vzdálenosti (radiusu) –k-NN dotaz výběr k nejbližších sousedních objektů –intervalový dotaz výběr objektů ve vymezené vzdálenosti (mezi min. a max. radiusem) vyhledávání peptidových modifikací – množina intervalových dotazů spolu (s maximovou nebo Hausdorffovou vzdáleností) chyby způsobené modifikacemi aminokyselin odpovídají přímo průměrným radiusům intervalových dotazů

11 Navržená metoda (3)  Eukleidovská vzdálenost – méně velkých posunů peaků často odpovídá větší vzdálenosti než více malých posunů  logaritmická vzdálenost – opak tj. málo výrazných odchylek vyjadřuje větší podobnost (pro interpretaci spekter výhodnější) 4)Skórování –kandidáti – generování teoret. spekter, nejvíce shodných peaků ~ výsledek x = {200,300,400,500} y = {200,300,460,500} z = {210,305,420,475}  Logaritmická vzdálenost – x a y jsou blíže než x a z  Eukleidovská vzdálenost – x a z jsou blíže než x a y

12 Experimenty  Testovací data –kolekce MS/MS spekter projektu Quartz - Amethyst & Opal lidské proteiny obsahují peptidové sekvence a jim odpovídající experimentálně získaná MS/MS spektra navrženy pro validaci algoritmů, které analyzují jednotlivé peptidové sekvence (nikoliv celé proteiny ze sady spekter)  Příklady provedených experimentů –porovnání vzdáleností Eukleidovská, maximová, Hausdorffova, logaritmická, kosinová podobnost –vhodnost použití sady intervalových dotazů pro vyhledávání peptidových modifikací –porovnání se současnými metodami (kvalita identifikace) a sekvenčním přístupem

13 Experimenty – porovnání vzdáleností amet: 533 spekter

14 Experimenty – intervalové dotazy amet: 773 spekter, opal: 622 spekter

15 Experimenty – porovnání s exist. metodami MASCOT – 62% (potvrz.) ProteinProspector – 72%  testovací sada: 50 spekter (testováno přes webové rozhraní)  používáme poměrně jednoduché heuristiky a skórování, přesto jsou výsledky kvalitativně srovnatelné s nejpoužívanějšími aplikacemi jako jsou MASCOT, ProteinProspector, …  zrychlení při použití (P)M-tree je řádově 10 3 oproti sekvenčnímu algoritmu – DB reálné velikosti (50 tis. proteinů ~ 2,5 mil. peptidů)

16 Závěr a budoucí práce  ověřeny byly možnosti použití metrických indexovacích metod pro identifikaci peptidových sekvencí z MS/MS spekter –interpretace – založena na vyhl. v DB známých sekvencí –metrika – vyjádření podobnosti spekter –indexovací metody – log. složitost vyhl.  budoucí práce –sofistikovanější heuristiky –nové metriky –skórovací schémata –testování na vetších sadách experimentálně získaných MS/MS spekter vhodných pro identifikaci celých proteinových sekvencí (nikoliv pouze jednotlivých peptidů)


Stáhnout ppt "Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Ing. Jiří Novák"

Podobné prezentace


Reklamy Google