Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Jaroslav Bendl, Jan Štourač, Ondřej Šalanda, Antonín Pavelka, Eric D. Wieben, Jaroslav Zendulka, Jan Brezovský, Jiří Damborský PredictSNP: Prediktor vlivu.

Podobné prezentace


Prezentace na téma: "Jaroslav Bendl, Jan Štourač, Ondřej Šalanda, Antonín Pavelka, Eric D. Wieben, Jaroslav Zendulka, Jan Brezovský, Jiří Damborský PredictSNP: Prediktor vlivu."— Transkript prezentace:

1 Jaroslav Bendl, Jan Štourač, Ondřej Šalanda, Antonín Pavelka, Eric D. Wieben, Jaroslav Zendulka, Jan Brezovský, Jiří Damborský PredictSNP: Prediktor vlivu mutací na funkci proteinů http://loschmidt.chemi.muni.cz/predictsnp

2 Typy mutací Single Nucleotide Polymorphism (SNP) Odchylka individuálního nukleotidu v sekvenci DNA PredictSNP: pouze nesynonymní mutace

3 Motivace Predikce důsledků mutace na lidské zdraví

4 Cíl projektu Vývoj meta-prediktoru s cílem dosáhnout vyšší přesnosti a spolehlivost predikce než integrované nástroje Rozhodovací hranice stavového prostoru Rozhodovací hranice prediktorů

5 Výběr nástrojů k integraci Podmínky pro výběr nástroje 1.Umožňuje vyhodnocení uživatelských sekvencí 2.Je poskytován jako stand-alone aplikace 3.Nevyžaduje 3D strukturu proteinu

6 Výběr nástrojů k integraci Podmínky pro výběr nástroje 1.Umožňuje vyhodnocení uživatelských sekvencí 2.Je poskytován jako stand-alone aplikace 3.Nevyžaduje 3D strukturu proteinu

7 Výběr nástrojů k integraci Podmínky pro výběr nástroje 1.Umožňuje vyhodnocení uživatelských sekvencí 2.Je poskytován jako stand-alone aplikace 3.Nevyžaduje 3D strukturu proteinu

8 Výběr nástrojů k integraci Podmínky pro výběr nástroje 1.Umožňuje vyhodnocení uživatelských sekvencí 2.Je poskytován jako stand-alone aplikace 3.Nevyžaduje 3D strukturu proteinu

9 Výběr nástrojů k integraci Podmínky pro výběr nástroje 1.Umožňuje vyhodnocení uživatelských sekvencí 2.Je poskytován jako stand-alone aplikace 3.Nevyžaduje 3D strukturu proteinu

10 Princip predikčních nástrojů VstupAtributy mutace konzervovanost sekundární struktura volná energie model škodlivé / neutrální + spolehlivost Škodlivost? proteinová sekvence >HBA_HUMAN MVLSPADKTNVKAAWGKVG AHAEYGAEALERMFLSFPTTK TYFPHFDLSHGSAQVKGHGKK VADALTNAVAHVDDMPNALS ALSDLHAHKLRVDPVNFKLLSH CLLVTLAAHLPAETPAVHASLD KFLSVSTVLTSKYRFDLSHGSA QVKGHGKKVADALTNAVAHV DDMPNALSALSDLHAH A V proteinová mutace

11 Benchmark dataset SNPs&GO dataset MutPred dataset HumSavar dataset PON-P dataset HumVar dataset Sloučení datasetů 242,293 mutací Odstranění mutací s konfliktní anotací redukováno 6 118 mutací Odstranění duplicitních mutací redukováno 136 157 mutací Odstranění překryvů s testovanými nástroji redukováno 56 136 mutací

12 Benchmark dataset Odstranění překryvů s testovanými nástroji redukováno 56 136 mutací PhD-SNP dataset SNAP dataset PPH-2 dataset nsSNPA dataset Trénovací sady testovaných nástrojů Celkem 132 030 mutací Benchmark dataset celkem 43 882 mutací

13 Testovací datasety PhD-SNP dataset SNAP dataset PPH-2 dataset nsSNPA dataset Trénovací sady testovaných nástrojů Celkem 132 030 mutací MMP dataset 11 994 mutací 13 sekvencí PMD dataset 3 497 mutací 1 189 sekvencí Benchmark dataset 43 882 mutací 10 085 sekvencí

14 Ohodnocení nástrojů Velký počet nepredikovaných mutací a obecně slabá přesnost predikce nástrojů nsSNPAnalyzer a PANTHER vedla k jejich odstranění z konsenzu PokrytíPřesnostKorelace MAPP87,8%0,7110,423 nsSNPAnalyzer33,5%0,6320,219 PANTHER54,6%0,6420,296 PhD-SNP100,0%0,7460,494 PPH-198,8%0,6820,364 PPH-2100,0%0,7010,407 SIFT97,1%0,7230,447 SNAP99,1%0,6700,346

15 Kalibrace skóre spolehlivosti

16 Vliv překryvu datasetů Rozdíl 11.5%!

17 Princip meta-prediktoru Vstupy nástrojů MAPP PhD-SNP PolyPhen-1 PolyPhen-2 NástrojeŠkodlivost? SIFT SNAP model škodlivé / neutrální + spolehlivost

18 Vybraný rozhodovací model Rozhodnutí nástroje, ‹-1,1› -1 … predikce škodlivosti 1 … predikce neutrality Skóre spolehlivosti, ‹0,1› 0 … minimální důvěra nástroje ve své rozhodnutí 1 … maximální důvěra nástroje ve své rozhodnutí Pathogenicity skóre, ‹-1,1› -1 …všechny nástroje predikují, že mutace je škodlivá 0 … nástroje poskytují vzájemně protichůdná rozhodnutí +1 … všechny nástroje predikují, že mutace je neutrální

19 Ostatní rozhodovací modely Benchmark dataset PMD dataset MMP dataset PredictSNP0,4940,3320,433 Naive Bayes0,4840,3080,400 Logistic regression0,5220,3060,357 Neural network0,5240,3040,374 Support vector machine0,5170,3170,384 Nearest neighbour0,3570,1840,213 Random forest0,4480,2860,323 Evolution strategy0,5280,3040,351 PMD dataset 3 497 mutací 1 189 sekvencí MMP dataset 11 994 mutací 13 sekvencí Benchmark dataset 43 882 mutací 10 085 sekvencí U všech metod strojového učení je patrný výrazný vliv přetrénování

20 Ostatní meta-prediktory PMD dataset MMP dataset PredictSNPCONDELMeta-SNPPredictSNPCONDELMeta-SNP Přesnost0,6790,5620,6700,7080,6400,673 Korelační koeficient0,3660,2020,3430,4330,3490,351 AUC (plocha pod ROC) 0,7320,7550,7090,7800,7700,730

21 Vstupní rozhraní

22 Výstupní rozhraní

23 Statistiky použití Bendl et al. (2014) PredictSNP: robust and accurate consensus classifier for prediction of disease-related mutations. PLOS Comput Biol Unikátních uživatelů> 200 Analyzovaných proteinů> 800 Analyzovaných mutací> 19 000 Průměrná doba běhu1 hodina Průměrná čekací doba30 minut

24 Závěry Ohodnocení predikčních nástrojů na tří nových datasetech Vývoj meta-nástroje vykazujícího vyšší úspěšnost a spolehlivost predikce Odvození anotací z homologních sekvencí v databázích SwissProt a PMD Implementace v podobě interaktivní webové aplikace

25 Ohodnocení nástrojů ACC trénovací datasety ACC nezávislý dataset Rozdíl = vliv překryvu MAPP0,7560,7110,045 nsSNPA.0,6320,6120,020 PANTHER0,7050,6420,063 PhD-SNP0,8600,7460,114 PPH-10,7350,6820,053 PPH-20,7650,7010,064 SIFT0,7670,7230,044 SNAP0,7260,6700,056


Stáhnout ppt "Jaroslav Bendl, Jan Štourač, Ondřej Šalanda, Antonín Pavelka, Eric D. Wieben, Jaroslav Zendulka, Jan Brezovský, Jiří Damborský PredictSNP: Prediktor vlivu."

Podobné prezentace


Reklamy Google