Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Jiří Novák
Úvod proteiny –lineární sekvence aminokyselin –DNA (20 různých aminokyselin) –peptidy hmotnostní spektrometrie (mass spectrometry, MS) –metoda pro identifikaci neznámých proteinových sekvencí –určuje hmotnosti molekul a molekulových fragmentů po jejich převedení na ionty – hmotnostní spektrum –jednoduchá MS x tandemová MS/MS základ interpretace spekter –různé aminokyseliny ~ různé hmotnosti
Hmotnostní spektra - příklad jednoduchá MS –rozdělení neznámého proteinu na peptidy –specificita dělení sekvence MGLSDGEWQLVLNVWGK|VEADIPGHGQEVLIR|LFK|GHPETLEK|FDK| FK|HLK|SEDEMK|ASEDLK|... tandemová MS/MS –modernější, rozšíření jednoduché MS –spektrum ~ peptid; sada spekter ~ protein –fragmenty: y, b-ionty
Cíl práce hmotnostní spektrometrie – proteinové sekvence – vlastnosti proteinů Cíl: provést analýzu stávajících metod interpretace hmotnostních spekter a prozkoumat možnosti využití metrických indexovacích metod. Proč metrické přístupové metody: interpretace – DB metrika – podobnost spekter index – log. složitost
Současné metody interpretace PMF (Peptide Mass Fingerprinting) –jednoduchá MS; DB známých proteinových sekvencí –generování teoretických hmotností peptidů; porovnání s experimentálním spektrem (match např. >= 5 peaků) –velikost DB roste – náhodné hity PFF (Peptide Fragment Fingerprinting) –analogie pro MS/MS; přesnější –párujeme fragmetová spektra s peptidy –skórování: SPC (Shared Peak Count), spektrální alignment (zarovnávání spekter – dyn. prog.), … –identifikace nových sekvencí – 6 rámcový překlad DNA
Současné metody interpretace De Novo Sequencing –pro MS/MS spektra; přímá interpretace pouze pomocí grafu –vzdálenost peaků ~ hmotnost aminokyseliny –mnoho cest grafu ~ mnoho řešení, úspěšnost cca 30% –výhodou DB přístupu – redukce počtu řešení Sequence Tag –kombinace; určíme tag (De Novo či ručně), pak hledáme v DB Problémy interpretace –nerozlišitelnost aminokyselin (či dvojic) s podobnou hmotností –bodové mutace aminokyselin, posttranslační modifikace –chybějící peaky y, b-iontů –šum (až 80%)
Metrické přístupové metody M-tree –dynamický, vyvážený strom –pro index. objektů využívá vlastnosti metrických prostorů –vnitřní uzly (směrovací záznamy) rout(O i ) = [O i, r(O i ), ptr(T(O i )), d(O i,par(O i ))] –listové uzly (odkazy na index. data) grnd(O i ) = [O i, oid(O i ), d(O i,par(O i ))] PM-tree –zmenšení metrických regionů, globální množina pivotů –rout(O i ) navíc pole HR (prstence) –grnd(O i ) navíc pole PD (vzdál. O i od pivotů) –|HR| = 0, |PD| = 0 ~ M-tree
Požadavky na řešení problému metrika – reflex., pozit., sym., trojúhelníková nerovnost (INEQ) algoritmy pro vyhodnocování podobnosti spekter – časová náročnost (dyn. prog.) a nesplňují INEQ výpočet vzdál. se použ. často – jednoduchost, rychlost jednoduchá metrika – množina kandidátů; aplikujeme skórovací systém nebo složitější alg.
Navržená metoda PFF; klíčová je identifikace peptidu z MS/MS spektra konstrukce DB –teoretické m/z pro y-ionty (a b-ionty) heuristiky –např. výběr posledních k peaků, hledání párových y a b-iontů m(b i ) + m(y k-i ) = m p + 2, apod. vyhledávání –rozsahový nebo k-NN dotaz –modif. peptidy – intervalové dotazy a max. nebo Hauss. Metrika
Experimenty a zhodnocení výsledků MASCOT – 68%, zaruč. 62% ProteinProspector – 72%
Závěr DB reálné velikosti („všech“ proteinů člověka; 50 tis. proteinů ~ 2.5 mil. peptidů) – dosahuje zrychlení vyhled. cca 1000x oproti sekv. průchodu úspěšnost srovnatelná se současnými vyhledávači (MASCOT, ProteinProspector) sofistikovanější heuristiky, hledání vhodnějších metrik – zvýšení kvality identifikace
Děkuji za pozornost Jiří Novák