Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilDan Slavík
1
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Jiří Novák novakj4@fel.cvut.cz
2
Úvod proteiny –lineární sekvence aminokyselin –DNA (20 různých aminokyselin) –peptidy hmotnostní spektrometrie (mass spectrometry, MS) –metoda pro identifikaci neznámých proteinových sekvencí –určuje hmotnosti molekul a molekulových fragmentů po jejich převedení na ionty – hmotnostní spektrum –jednoduchá MS x tandemová MS/MS základ interpretace spekter –různé aminokyseliny ~ různé hmotnosti
3
Hmotnostní spektra - příklad jednoduchá MS –rozdělení neznámého proteinu na peptidy –specificita dělení sekvence MGLSDGEWQLVLNVWGK|VEADIPGHGQEVLIR|LFK|GHPETLEK|FDK| FK|HLK|SEDEMK|ASEDLK|... tandemová MS/MS –modernější, rozšíření jednoduché MS –spektrum ~ peptid; sada spekter ~ protein –fragmenty: y, b-ionty
4
Cíl práce hmotnostní spektrometrie – proteinové sekvence – vlastnosti proteinů Cíl: provést analýzu stávajících metod interpretace hmotnostních spekter a prozkoumat možnosti využití metrických indexovacích metod. Proč metrické přístupové metody: interpretace – DB metrika – podobnost spekter index – log. složitost
5
Současné metody interpretace PMF (Peptide Mass Fingerprinting) –jednoduchá MS; DB známých proteinových sekvencí –generování teoretických hmotností peptidů; porovnání s experimentálním spektrem (match např. >= 5 peaků) –velikost DB roste – náhodné hity PFF (Peptide Fragment Fingerprinting) –analogie pro MS/MS; přesnější –párujeme fragmetová spektra s peptidy –skórování: SPC (Shared Peak Count), spektrální alignment (zarovnávání spekter – dyn. prog.), … –identifikace nových sekvencí – 6 rámcový překlad DNA
6
Současné metody interpretace De Novo Sequencing –pro MS/MS spektra; přímá interpretace pouze pomocí grafu –vzdálenost peaků ~ hmotnost aminokyseliny –mnoho cest grafu ~ mnoho řešení, úspěšnost cca 30% –výhodou DB přístupu – redukce počtu řešení Sequence Tag –kombinace; určíme tag (De Novo či ručně), pak hledáme v DB Problémy interpretace –nerozlišitelnost aminokyselin (či dvojic) s podobnou hmotností –bodové mutace aminokyselin, posttranslační modifikace –chybějící peaky y, b-iontů –šum (až 80%)
7
Metrické přístupové metody M-tree –dynamický, vyvážený strom –pro index. objektů využívá vlastnosti metrických prostorů –vnitřní uzly (směrovací záznamy) rout(O i ) = [O i, r(O i ), ptr(T(O i )), d(O i,par(O i ))] –listové uzly (odkazy na index. data) grnd(O i ) = [O i, oid(O i ), d(O i,par(O i ))] PM-tree –zmenšení metrických regionů, globální množina pivotů –rout(O i ) navíc pole HR (prstence) –grnd(O i ) navíc pole PD (vzdál. O i od pivotů) –|HR| = 0, |PD| = 0 ~ M-tree
8
Požadavky na řešení problému metrika – reflex., pozit., sym., trojúhelníková nerovnost (INEQ) algoritmy pro vyhodnocování podobnosti spekter – časová náročnost (dyn. prog.) a nesplňují INEQ výpočet vzdál. se použ. často – jednoduchost, rychlost jednoduchá metrika – množina kandidátů; aplikujeme skórovací systém nebo složitější alg.
9
Navržená metoda PFF; klíčová je identifikace peptidu z MS/MS spektra konstrukce DB –teoretické m/z pro y-ionty (a b-ionty) heuristiky –např. výběr posledních k peaků, hledání párových y a b-iontů m(b i ) + m(y k-i ) = m p + 2, apod. vyhledávání –rozsahový nebo k-NN dotaz –modif. peptidy – intervalové dotazy a max. nebo Hauss. Metrika
10
Experimenty a zhodnocení výsledků MASCOT – 68%, zaruč. 62% ProteinProspector – 72%
11
Závěr DB reálné velikosti („všech“ proteinů člověka; 50 tis. proteinů ~ 2.5 mil. peptidů) – dosahuje zrychlení vyhled. cca 1000x oproti sekv. průchodu úspěšnost srovnatelná se současnými vyhledávači (MASCOT, ProteinProspector) sofistikovanější heuristiky, hledání vhodnějších metrik – zvýšení kvality identifikace
12
Děkuji za pozornost Jiří Novák novakj4@fel.cvut.cz
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.