Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilJaromír Bílek
1
Jaroslav Bendl, Jan Štourač, Ondřej Šalanda, Antonín Pavelka, Eric D. Wieben, Jaroslav Zendulka, Jan Brezovský, Jiří Damborský PredictSNP: Prediktor vlivu mutací na funkci proteinů http://loschmidt.chemi.muni.cz/predictsnp
2
Typy mutací Single Nucleotide Polymorphism (SNP) Odchylka individuálního nukleotidu v sekvenci DNA PredictSNP: pouze nesynonymní mutace
3
Motivace Predikce důsledků mutace na lidské zdraví
4
Cíl projektu Vývoj meta-prediktoru s cílem dosáhnout vyšší přesnosti a spolehlivost predikce než integrované nástroje Rozhodovací hranice stavového prostoru Rozhodovací hranice prediktorů
5
Výběr nástrojů k integraci Podmínky pro výběr nástroje 1.Umožňuje vyhodnocení uživatelských sekvencí 2.Je poskytován jako stand-alone aplikace 3.Nevyžaduje 3D strukturu proteinu
6
Výběr nástrojů k integraci Podmínky pro výběr nástroje 1.Umožňuje vyhodnocení uživatelských sekvencí 2.Je poskytován jako stand-alone aplikace 3.Nevyžaduje 3D strukturu proteinu
7
Výběr nástrojů k integraci Podmínky pro výběr nástroje 1.Umožňuje vyhodnocení uživatelských sekvencí 2.Je poskytován jako stand-alone aplikace 3.Nevyžaduje 3D strukturu proteinu
8
Výběr nástrojů k integraci Podmínky pro výběr nástroje 1.Umožňuje vyhodnocení uživatelských sekvencí 2.Je poskytován jako stand-alone aplikace 3.Nevyžaduje 3D strukturu proteinu
9
Výběr nástrojů k integraci Podmínky pro výběr nástroje 1.Umožňuje vyhodnocení uživatelských sekvencí 2.Je poskytován jako stand-alone aplikace 3.Nevyžaduje 3D strukturu proteinu
10
Princip predikčních nástrojů VstupAtributy mutace konzervovanost sekundární struktura volná energie model škodlivé / neutrální + spolehlivost Škodlivost? proteinová sekvence >HBA_HUMAN MVLSPADKTNVKAAWGKVG AHAEYGAEALERMFLSFPTTK TYFPHFDLSHGSAQVKGHGKK VADALTNAVAHVDDMPNALS ALSDLHAHKLRVDPVNFKLLSH CLLVTLAAHLPAETPAVHASLD KFLSVSTVLTSKYRFDLSHGSA QVKGHGKKVADALTNAVAHV DDMPNALSALSDLHAH A V proteinová mutace
11
Benchmark dataset SNPs&GO dataset MutPred dataset HumSavar dataset PON-P dataset HumVar dataset Sloučení datasetů 242,293 mutací Odstranění mutací s konfliktní anotací redukováno 6 118 mutací Odstranění duplicitních mutací redukováno 136 157 mutací Odstranění překryvů s testovanými nástroji redukováno 56 136 mutací
12
Benchmark dataset Odstranění překryvů s testovanými nástroji redukováno 56 136 mutací PhD-SNP dataset SNAP dataset PPH-2 dataset nsSNPA dataset Trénovací sady testovaných nástrojů Celkem 132 030 mutací Benchmark dataset celkem 43 882 mutací
13
Testovací datasety PhD-SNP dataset SNAP dataset PPH-2 dataset nsSNPA dataset Trénovací sady testovaných nástrojů Celkem 132 030 mutací MMP dataset 11 994 mutací 13 sekvencí PMD dataset 3 497 mutací 1 189 sekvencí Benchmark dataset 43 882 mutací 10 085 sekvencí
14
Ohodnocení nástrojů Velký počet nepredikovaných mutací a obecně slabá přesnost predikce nástrojů nsSNPAnalyzer a PANTHER vedla k jejich odstranění z konsenzu PokrytíPřesnostKorelace MAPP87,8%0,7110,423 nsSNPAnalyzer33,5%0,6320,219 PANTHER54,6%0,6420,296 PhD-SNP100,0%0,7460,494 PPH-198,8%0,6820,364 PPH-2100,0%0,7010,407 SIFT97,1%0,7230,447 SNAP99,1%0,6700,346
15
Kalibrace skóre spolehlivosti
16
Vliv překryvu datasetů Rozdíl 11.5%!
17
Princip meta-prediktoru Vstupy nástrojů MAPP PhD-SNP PolyPhen-1 PolyPhen-2 NástrojeŠkodlivost? SIFT SNAP model škodlivé / neutrální + spolehlivost
18
Vybraný rozhodovací model Rozhodnutí nástroje, ‹-1,1› -1 … predikce škodlivosti 1 … predikce neutrality Skóre spolehlivosti, ‹0,1› 0 … minimální důvěra nástroje ve své rozhodnutí 1 … maximální důvěra nástroje ve své rozhodnutí Pathogenicity skóre, ‹-1,1› -1 …všechny nástroje predikují, že mutace je škodlivá 0 … nástroje poskytují vzájemně protichůdná rozhodnutí +1 … všechny nástroje predikují, že mutace je neutrální
19
Ostatní rozhodovací modely Benchmark dataset PMD dataset MMP dataset PredictSNP0,4940,3320,433 Naive Bayes0,4840,3080,400 Logistic regression0,5220,3060,357 Neural network0,5240,3040,374 Support vector machine0,5170,3170,384 Nearest neighbour0,3570,1840,213 Random forest0,4480,2860,323 Evolution strategy0,5280,3040,351 PMD dataset 3 497 mutací 1 189 sekvencí MMP dataset 11 994 mutací 13 sekvencí Benchmark dataset 43 882 mutací 10 085 sekvencí U všech metod strojového učení je patrný výrazný vliv přetrénování
20
Ostatní meta-prediktory PMD dataset MMP dataset PredictSNPCONDELMeta-SNPPredictSNPCONDELMeta-SNP Přesnost0,6790,5620,6700,7080,6400,673 Korelační koeficient0,3660,2020,3430,4330,3490,351 AUC (plocha pod ROC) 0,7320,7550,7090,7800,7700,730
21
Vstupní rozhraní
22
Výstupní rozhraní
23
Statistiky použití Bendl et al. (2014) PredictSNP: robust and accurate consensus classifier for prediction of disease-related mutations. PLOS Comput Biol Unikátních uživatelů> 200 Analyzovaných proteinů> 800 Analyzovaných mutací> 19 000 Průměrná doba běhu1 hodina Průměrná čekací doba30 minut
24
Závěry Ohodnocení predikčních nástrojů na tří nových datasetech Vývoj meta-nástroje vykazujícího vyšší úspěšnost a spolehlivost predikce Odvození anotací z homologních sekvencí v databázích SwissProt a PMD Implementace v podobě interaktivní webové aplikace
25
Ohodnocení nástrojů ACC trénovací datasety ACC nezávislý dataset Rozdíl = vliv překryvu MAPP0,7560,7110,045 nsSNPA.0,6320,6120,020 PANTHER0,7050,6420,063 PhD-SNP0,8600,7460,114 PPH-10,7350,6820,053 PPH-20,7650,7010,064 SIFT0,7670,7230,044 SNAP0,7260,6700,056
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.