Nová metoda pro generování 2D farmakoforového modelu David Hoksza 1,2, Daniel Svozil 2 SIRET Research Group MFF UK Laboratoř informatiky a chemie FCHT VŠCHT ENBIK 20141
Osnova Motivace Farmakofor a farmakoforový model Nová metoda pro automatické generování 2D farmakoforového modelu ENBIK 20142
Počítačová identifikace bioaktivních molekul Vysoko propustný (high-throughput) screening (HTS) Laboratorní metoda schopná otestovat paralelně tisíce sloučenin při hledání bioaktivních kandidátů (lead) Virtuální HTS Komputační metoda analýzy virtuálních knihoven chemických sloučenin Schopnost otestovat milióny sloučenin v krátkém čase Není nutné sloučeniny skutečně vlastnit Je možné testovat i virtuální sloučeniny, které ještě nebyly syntetizovány Méně přesné než klasický biologický screening ENBIK source: Hybrigenics Services
Metody virtuálního screeningu Založené na cílové struktuře (structure-based VS) Snaha pro každou molekulu v DB odhadnout způsob jakým se bude vázat na biologický cíl a predikovat volnou energii výsledného komplexu Funkce predikující volnou energii jsou slabé místo současných metod Nutnost znát strukturu cíle Založené na informaci o kandidátu (ligand-based VS) Založen na podobnostním principu – (strukturně) podobné sloučeniny mívají podobné vlastnosti Využívá se znalost o podobných molekulách u nichž již byla aktivita vzhledem k danému cíli zjištěna ENBIK 20144
Farmakofor Podle definice IUPAC je farmakofor definován jako “the ensemble of steric and electronic features that is necessary to ensure the optimal supramolecular interactions with a specific biological target structure and to trigger (or to block) its biological response” ENBIK 20145
Farmakoforové vlastnosti ENBIK hydrophobic feature hydrogen bond acceptor (HBA) feature + projected point aromatic ring feature + projected point hydrophobic feature
Farmakoforový model Identifikace farmakoforových vlastností v každém z ligandů Prostorová superpozice ligandů (může zahrnovat predikci prostorové struktury) Identifikace společných farmakoforových vlastností (automaticky nebo manuálně) ENBIK 20147
Automatické generování 2D farmakoforového modelu (1) Predikce struktury ligandu v komplexu s cílem může být obtížná 2D farmakofor místo euklidovské vzdálenosti využívá vzdálenost topologickou v grafu chemické struktury Vyvinuli jsme metodu schopnou automaticky identifikovat 2D farmakoforový model na základě znalosti aktivních a neaktivních sloučenin vzhledem k danému biologickému cíli ENBIK 20148
Automatické generování 2D farmakoforového modelu (2) 1.Vygenerování 2D farmakoforového otisku (bitový řetězec, kde každá pozice určuje, zda molekula obsahuje nebo neobsahuje daný farmakofor) pro každou molekulu 2.Statistická analýza identifikující farmakofory (odpovídajících pozicím bitů v farmakoforovém otisku) separující aktivní molekuly od neaktivních 3.Využití diskriminativních farmakoforů k vybudování 2D farmakoforového modelu (reprezentovaného bitovým řetězcem) ENBIK 20149
Generování 2D farmakoforových otisků Bitový řetězec, kde daný bit odpovída přítomnosti nebo absenci příslušného farmakoforu (konkretní distribuce farmakoforových vlastností) Libovolná kombinace vlastností a jejich vzdáleností (konkrétní farmakofor) odpovídá pozici v bitovém řetězci Pro každou molekulu v trénovací množině se vygeneruje bitový řetězec reprezentující přítomnost nebo absenci každého farmakoforu ENBIK MFiLF
Statistická analýza 1.Pro každý farmakofor spočítáme počet jeho výskytů v množině aktivních a neaktivních molekul 2.Identifikujeme takové farmakofory, které se vykytují statisticky významně více v množině aktivních sloučenin (rozlišují aktivní sloučeniny od neaktivních) Fisherův exaktní test (proporční z-test nelze použít kvůli možnému nízkému počtu vzorků) Nulová hypotéza: daný farmakofor se vyskytuje ve stejném poměru v množinách aktivních i neaktivních sloučenin Konfidenční interval: 95% (typicky) ENBIK
Konstrukce modelu Model se skládá z farmakoforů, které se vyskytují významně častěji v množině aktivních sloučenin Model je reprezentován bitovým řetězcem, kde bity odpovídající významným farmakoforům jsou nastaveny na 1 ENBIK
Virtuální screening Farmakoforový model je využit pro prioritizaci databáze kandidátních sloučenin → podobnostní míra ENBIK Zvýhodnění farmakoforů, pro které je větší jistota, že separují aktivní a neaktivní molekuly
Vyhodnocení - setup Metoda implementována v RDKitu 17 testů (assays) z Maximum Unbiased Validation datových množin Každá množina je unbiased podmnožina výstupů biochemického testu obsahující 30 aktivních a 15,000 neaktivních sloučenin 1/3 použita na naučení farmakoforového modelu → 20 aktivních a 10,000 neaktivních sloučenin použito jako testovací sada (u každého ze 17 testů) Srovnání s několika ligand-based metodami virtuálního screeningu Molekulární deskriptory z MOE, MACCS strukturní klíče, SESP (2D topologické indexy) ENBIK
Vyhodnocení – oblast pod ROC křivkou ENBIK
Otázky ENBIK