Nová metoda pro generování 2D farmakoforového modelu David Hoksza 1,2, Daniel Svozil 2 SIRET Research Group MFF UK Laboratoř informatiky a chemie FCHT.

Slides:



Advertisements
Podobné prezentace
REACH Implementation Project 3.10 (RIP 3.10) Technické pokyny pro identifikaci a volbu názvu v rámci REACH.
Advertisements

A5M33IZS – Informační a znalostní systémy Datová analýza I.
Automatická fonetická segmentace pomocí UNS Registr - 36 neuronových sítí MLNN (pro každou českou hlásku jedna UNS) Trénovací množina: databáze promluv.
CrossFire (Beilstein on-line) Jan Šarek, katedra organické chemie, UP, PřF, web: Motto: Sekundární chemická.
Elektronické knihy: Tak trochu jiný způsob akvizice Filip Vojtášek Albertina icome Praha 24. akviziční seminář
Ondřej Andrš Systémy CAD I. Základní informace  Autor: Ing. Ondřej Andrš  Školitel: doc. RNDr. Tomáš Březina, CSc.  Název tématu studia: Optimalizace.
Teoretická výpočetní chemie
PRÉCIS OD NESTRUKTUROVANÝCH KLÍČOVÝCH SLOV JAKO DOTAZŮ K STRUKTUROVANÝM DATABÁZÍM JAKO ODPOVĚDÍM Martin Lacina.
Výpočet a interpretace ukazatelů asociace v epidemiologických studiích
Návrh modelů Jan Brůha IREAS. Návrh otázek a modelů Jaký vliv měla podpora z ESF v OP LZZ 1.1 na obrat / zisk a zaměstnanost firem? – Jde o srovnání mezi.
Definování prostředí pro provozování aplikace dosud jsme řešili projekt v obecné rovině aplikace bude ovšem provozována v konkrétním technickém a programovém.
Získávání informací Získání informací o reálném systému
Testování hypotéz (ordinální data)
Tloušťková struktura porostu
Auditorské postupy Činnosti před uzavřením smlouvy
FRAKTÁLY JSOU MNOŽINY JEJICHŽ GEOMETRICKÝ MOTIV SE OPAKUJE V ZÁKLADNÍM TĚLESE AŽ DO NEKONEČNA. (c) Tralvex Yeap. All Rights Reserved.
IFA, Česká republika 17. května 2011
ICT ve výuce chemie pro posluchače Studia k výkonu specializovaných činností (ICV) Mgr. Martin Dojiva.
Predikce hospitalizační mortality u akutního infarktu myokardu
 BA_EM Electronic Marketing Pavel Agenda  Efektivní data mining jako zdroj relevantních dat o potřebách zákazníků.
1 Kognitivní inspirace třídění na základě závislostí atributů Jan Burian Eurfomise centrum – Kardio, Ústav informatiky AV ČR Článek je dostupný na WWW:
Dokumentace informačního systému
CZ.1.07/1.4.00/ VY_32_INOVACE_168_IT 9 Výukový materiál zpracovaný v rámci projektu Vzdělávací oblast: Informační a komunikační technologie Předmět:Informatika.
Test dobré shody Fisherův přesný test McNemar test
Milan Kryl(c) 2004 MFF UK Databáze Caché NLS national language settings.
Databázové modelování
Dolce: Databáze lokálních konformací DNA
Tvorba simulačních modelů. Než vznikne model 1.Existence problému 2.Podrobnosti o problému a o systému 3.Jiné možnosti řešení ? 4.Existence podobného.
Databázové systémy Informatika pro ekonomy, př. 18.
Generování sítě MIDAS GTS. Prvky pro generování sítě MIDAS má několik typů prvků, jež využívá pro generování sítě. Každý prvek je určen svými uzly (konstrukčně).
Posouzení možnosti využití ArcIMS pro prezentaci rozsáhlých rastrových dat Diplomová práce Vedoucí: Dr. Ing. Bronislava Horáková Zpracovatel:Tomáš Ježek.
Databáze velké množství dat pevně dané struktury
Data pro posuzování environmentálních rizik Hustopeče, Petr Trávníček Luboš Kotek Petr Junga.
Definice fraktální (vnitřní) dimenze a její aplikace v databázích
Metrologie   Přednáška č. 5 Nejistoty měření.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
 Ke vzniku organické chemie jako samostatné vědní disciplíny došlu na přelomu 18. a 19. století  Dříve se věřilo, že přírodní látky není možné uměle.
Fyzika elementárních částic
Počítačová chemie (5. přednáška)
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
Statistická významnost a její problémy
Kvantitativní metody výzkumu v praxi
Analýza webu pomocí vyhledávače Google metodou MBA Dobývání znalostí 2008 Vladislav Kozák, Jan Ondruš.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Jak statistika dokazuje závislost
Využití Hilbertovy báze k ověření shodnosti strukturálních a kombinatorických imsetů Petr Šimeček(MFF UK) Milan Studený(ÚTIA AV ČR)
Dita Matesová, David Lehký, Zbyněk Keršner
Proteinové databáze.
Hodnocení výstupů dynamických modelů Obsah předmětu: Počítačová podpora řízení Předmět : Počítačová podpora řízení K126 POPR Obor : E LS, 2015, K126 EKO.
Rekognice z pohledu psychologie
Lukáš Patka PFE. Microsoft Security Risk Assessment Identifikovat bezpečnostní rizika napříč IT infrastrukturou, aplikacemi, provozními procesy Zaměřen.
Postup při empirickém kvantitativním výzkumu
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
Farmakogenetika Cíl Na základě interdisciplinárního integrace znalostí farmakologie a genetiky popsat vliv dědičnosti na odpověď organismu.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Ověření modelů a modelování Kateřina Růžičková. Posouzení kvality modelu Ověření (verifikace) ● kvalitativní hodnocení správnosti modelu ● zda model přijatelně.
Mentální reprezentace
Bezpečnostní technologie I
ALKENY Chemie 9. třída.
Hodnocení diagnostických testů
1. Co mají společného násobky těchto čísel?
Financováno z ESF a státního rozpočtu ČR.
NÁZEV ŠKOLY: ČÍSLO PROJEKTU: NÁZEV MATERIÁLU: TÉMA SADY: ROČNÍK:
- váhy jednotlivých studií
Spojitá a kategoriální data Základní popisné statistiky
Organická chemie Pojem „organická chemie“ pochází z doby, kdy panovala tzv. „vitalistická teorie“ – domněnka, že organické látky vznikají v živém organismu.
Nespalovací emise tuhých látek z dopravy
Neuronové sítě.
Statistika a výpočetní technika
Výpočet a interpretace ukazatelů asociace v epidemiologických studiích
Transkript prezentace:

Nová metoda pro generování 2D farmakoforového modelu David Hoksza 1,2, Daniel Svozil 2 SIRET Research Group MFF UK Laboratoř informatiky a chemie FCHT VŠCHT ENBIK 20141

Osnova Motivace Farmakofor a farmakoforový model Nová metoda pro automatické generování 2D farmakoforového modelu ENBIK 20142

Počítačová identifikace bioaktivních molekul Vysoko propustný (high-throughput) screening (HTS) Laboratorní metoda schopná otestovat paralelně tisíce sloučenin při hledání bioaktivních kandidátů (lead) Virtuální HTS Komputační metoda analýzy virtuálních knihoven chemických sloučenin Schopnost otestovat milióny sloučenin v krátkém čase Není nutné sloučeniny skutečně vlastnit Je možné testovat i virtuální sloučeniny, které ještě nebyly syntetizovány Méně přesné než klasický biologický screening ENBIK source: Hybrigenics Services

Metody virtuálního screeningu Založené na cílové struktuře (structure-based VS) Snaha pro každou molekulu v DB odhadnout způsob jakým se bude vázat na biologický cíl a predikovat volnou energii výsledného komplexu Funkce predikující volnou energii jsou slabé místo současných metod Nutnost znát strukturu cíle Založené na informaci o kandidátu (ligand-based VS) Založen na podobnostním principu – (strukturně) podobné sloučeniny mívají podobné vlastnosti Využívá se znalost o podobných molekulách u nichž již byla aktivita vzhledem k danému cíli zjištěna ENBIK 20144

Farmakofor Podle definice IUPAC je farmakofor definován jako “the ensemble of steric and electronic features that is necessary to ensure the optimal supramolecular interactions with a specific biological target structure and to trigger (or to block) its biological response” ENBIK 20145

Farmakoforové vlastnosti ENBIK hydrophobic feature hydrogen bond acceptor (HBA) feature + projected point aromatic ring feature + projected point hydrophobic feature

Farmakoforový model Identifikace farmakoforových vlastností v každém z ligandů Prostorová superpozice ligandů (může zahrnovat predikci prostorové struktury) Identifikace společných farmakoforových vlastností (automaticky nebo manuálně) ENBIK 20147

Automatické generování 2D farmakoforového modelu (1) Predikce struktury ligandu v komplexu s cílem může být obtížná 2D farmakofor místo euklidovské vzdálenosti využívá vzdálenost topologickou v grafu chemické struktury Vyvinuli jsme metodu schopnou automaticky identifikovat 2D farmakoforový model na základě znalosti aktivních a neaktivních sloučenin vzhledem k danému biologickému cíli ENBIK 20148

Automatické generování 2D farmakoforového modelu (2) 1.Vygenerování 2D farmakoforového otisku (bitový řetězec, kde každá pozice určuje, zda molekula obsahuje nebo neobsahuje daný farmakofor) pro každou molekulu 2.Statistická analýza identifikující farmakofory (odpovídajících pozicím bitů v farmakoforovém otisku) separující aktivní molekuly od neaktivních 3.Využití diskriminativních farmakoforů k vybudování 2D farmakoforového modelu (reprezentovaného bitovým řetězcem) ENBIK 20149

Generování 2D farmakoforových otisků Bitový řetězec, kde daný bit odpovída přítomnosti nebo absenci příslušného farmakoforu (konkretní distribuce farmakoforových vlastností) Libovolná kombinace vlastností a jejich vzdáleností (konkrétní farmakofor) odpovídá pozici v bitovém řetězci Pro každou molekulu v trénovací množině se vygeneruje bitový řetězec reprezentující přítomnost nebo absenci každého farmakoforu ENBIK MFiLF

Statistická analýza 1.Pro každý farmakofor spočítáme počet jeho výskytů v množině aktivních a neaktivních molekul 2.Identifikujeme takové farmakofory, které se vykytují statisticky významně více v množině aktivních sloučenin (rozlišují aktivní sloučeniny od neaktivních) Fisherův exaktní test (proporční z-test nelze použít kvůli možnému nízkému počtu vzorků) Nulová hypotéza: daný farmakofor se vyskytuje ve stejném poměru v množinách aktivních i neaktivních sloučenin Konfidenční interval: 95% (typicky) ENBIK

Konstrukce modelu Model se skládá z farmakoforů, které se vyskytují významně častěji v množině aktivních sloučenin Model je reprezentován bitovým řetězcem, kde bity odpovídající významným farmakoforům jsou nastaveny na 1 ENBIK

Virtuální screening Farmakoforový model je využit pro prioritizaci databáze kandidátních sloučenin → podobnostní míra ENBIK Zvýhodnění farmakoforů, pro které je větší jistota, že separují aktivní a neaktivní molekuly

Vyhodnocení - setup Metoda implementována v RDKitu 17 testů (assays) z Maximum Unbiased Validation datových množin Každá množina je unbiased podmnožina výstupů biochemického testu obsahující 30 aktivních a 15,000 neaktivních sloučenin 1/3 použita na naučení farmakoforového modelu → 20 aktivních a 10,000 neaktivních sloučenin použito jako testovací sada (u každého ze 17 testů) Srovnání s několika ligand-based metodami virtuálního screeningu Molekulární deskriptory z MOE, MACCS strukturní klíče, SESP (2D topologické indexy) ENBIK

Vyhodnocení – oblast pod ROC křivkou ENBIK

Otázky ENBIK