Modelování struktury proteinů

Slides:



Advertisements
Podobné prezentace
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Advertisements

Ústav organické chemie a biochemie
ENVIRONMENTÁLNÍ INFORMATIKA A REPORTING
ZMVŠ. Bezpečnost Windows 8 Dynamic Access Control (DAC) Volně – Dynamický kontrolní přístup) rozšíření NTFS access control listů (ACL) o složitá pravidla.
Lekce 6 Slabé mezimolekulové interakce Osnova 1. Původ a význam slabých mezimolekulových interakcí 2. Předpoklad párové aditivity 3. Modely párových interakčních.
Zarovnávání biologických sekvencí
Teoretická výpočetní chemie
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Jiří Novák
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Ing. Jiří Novák
ELEKTRONOVÁ PARAMAGNETICKÁ (SPINOVÁ) REZONANCE
Určování povrchových energií pevných látek
Praktikum základů genomiky, zima 2007 Základy genomiky I. Úvod do bioinformatiky Jan Hejátko Masarykova univerzita, Laboratoř funkční genomiky a proteomiky.
Metody zpracování vybraných témat (projektů)
Mgr. Marek Pavlů Katedra Experimentální Fyziky 1 Modelování a simulace, Mgr. Marek Pavlů.
1 Vyhledávání Principy vyhledávání Klasifikace klíče:  Interní klíč – je součástí prohlížených záznamů  Externí klíč – není jeho součástí, je jím např.
Výukový materiál zpracován v rámci projektu EU peníze školám Registrační číslo projektu: III/2VY_32_inovace_199.
1IT S ÍŤOVÝ DATOVÝ MODEL Ing. Jiří Šilhán. S ÍŤOVÝ DATOVÝ MODEL Je historicky nejstarším datovým modelem. Jeho základem jsou vzájemně propojené množiny.
Bioinformatický a chemoinformatický výzkum v Loschmidtových laboratořích Loschmidtovy laboratoře, Ústav experimentální biologie, Výzkumné centrum toxických.
T-exkurze podzim …  Moje nejoblíbenější předměty ve škole (navštěvuji gymnázium) jsou chemie, informatika a matematika.  Byla jsem nadšená, když.
Chemická stavba buněk Září 2009.
BÍLKOVINY (STRUKTURA)
What is Bioinformatics?---The Tight Definition "Classical" bioinformatics Fredj Tekaia at the Institut Pasteur offers this definition of bioinformatics:
Nutný úvod do histologie
Podnikové informační systémy C7 – Data Mining a získávání znalostí České vysoké učení technické v Praze Fakulta strojní ústav Řízení a ekonomiky podniku.
Informatika pro ekonomy II přednáška 10
Chemická stavba bílkovin
FUNKCE PROTEINŮ.
Nová metoda pro generování 2D farmakoforového modelu David Hoksza 1,2, Daniel Svozil 2 SIRET Research Group MFF UK Laboratoř informatiky a chemie FCHT.
Vyhledávání, porovnávání, validace a charakterizace strukturních motivů v rámci biomakromolekul Radka Svobodová Vařeková, David Sehnal, Lukáš Pravda, Stanislav.
Aminokyseliny a bílkoviny
NIST WebBook Chemie (NIST Chemistry Webbook)‏. NIST WebBook Chemie (NIST Chemistry Webbook) NIST- National Institute for Standarts and Technology
DATABÁZOVÉ SYSTÉMY. 2 DATABÁZOVÝ SYSTÉM SYSTÉM ŘÍZENÍ BÁZE DAT (SŘBD) PROGRAM KTERÝ ORGANIZUJE A UDRŽUJE NASHROMÁŽDĚNÉ INFORMACE DATABÁZOVÁ APLIKACE PROGRAM.
Evaluation of Performance Based on Information in Documents‘ Databases Hana Pessrová Tomáš Cahlík.
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Dolce: Databáze lokálních konformací DNA
Modely uživatelských preferencí. Obsah Jak se vyjadřují preference Modely preferencí a jejich učení Model založený na atributech Kolaborativní filtrování.
Bioinformatika Jiří Vondrášek Jan Pačes
Databázové systémy Informatika pro ekonomy, př. 18.
Klomfar Petr.  Adresářová služba  specializovaná databáze optimalizovaná pro čtení a vyhledávání.  popisující objekt pomocí atributů. Na rozdíl od.
Počítačová chemie (5. přednáška)
Institut geoinformatiky VYUŽITÍ CELULÁRNÍCH AUTOMATŮ PRO MODELOVÁNÍ SILNIČNÍ SÍTĚ V MULTIAGENTOVÉM SYSTÉMU Vypracoval: Bc. Martin Hlaváček Vedoucí: Ing.
Statistická významnost a její problémy
DISTANCE MATRIXCONTACT MAP 1AUG PDB -> CM. Kontakty – proč jsou zajímavé ? CM -> PDB ?
Informační zdroje pro molekulární biologii M. Jurajda.
Stavová rovnice pro ideální plyn
Molekulárně biologické databáze
Molekulárně biologické databáze Pro zajímavost, nebude součástí zkoušky… Důležité, pravděpodobně bude u zkoušky…
SEKVENCE A:MASAQSFYLL SEKVENCE B:MASGQWLLAS Které oblasti A a B jsou si nejvíce podobné ? Jsou si A a B víc podobné než A a C ? Která ze sekvencí X1,...,Xn.
Bioinformatika pro PfUK 2002
Proteinové interakce Proteinové komplexy interaktom
B130P16: Praktické základy vědecké práce Katedra experimentální biologie rostlin PřF UK Connecting computer into wifi network.
Testování s TestComplete
Proteinové databáze.
Proteinová krystalografie
Využití technik dataminingu při rozpoznávání znaků Marek Kukačka Květen 2006.
(aminokyseliny, peptidy…)
PROTEINY Řec. „proteios“=prvořadý Sloučeniny polypeptidového charakteru, které se nalézají ve tkáních všech živých organizmů syntéza: Rostliny + některé.
Molekulárně-biologické databáze
Harmonogram - úprava – úvod, plán semestru, podmínky zápočtu. Studium literatury, vyhledávání literatury, databáze, knihovny, citace, Dr. Medalová.
Ing. Athanasios Podaras, Ph.D 2016
Molekulárně biologické databáze
Typy molekul, látek a jejich vazeb v organismech
Informatika pro ekonomy přednáška 8
Fylogenetická evoluční analýza
Espacenet Seminář Patentové databáze přístupné na internetu
Úloha 8 Predikce terciární struktury proteinů
Proteomika Bruno Sopko.
Základy genomiky V. Analýza protein-proteinových interakcí Jan Hejátko
Transkript prezentace:

Modelování struktury proteinů Jiří Damborský Loschmidtovy laboratoře, Masarykova univerzita Kamenice 5/A4, 2.32, tel. 5-4949 3467, jiri@chemi.muni.cz

Modelování struktury proteinů Teorie - úvod do struktury proteinů, databází proteinových struktur a jejich modelování Demonstrace - modelování protein-ligandových interakcí, dynamiky proteinů a enzymatických reakcí Introduction - what is it Bioinformatics? why is it important? history: manual sequencing (1 sequence/year), automated (1 sequence/min); sequence/structure deficit ... analysis of sequences to deduce function; secondary and tertiary structure prediction reliability Information networks - Internet; WWW; service providers; browsers; software for linking and distributing databases; web addresses on Bioinformatics Protein information resources - protein databases; data levels - primary, secondary and tertiary; formats of most common databases (SWISS-PROT, PROSITE); evolution of composite databases and integrated database projects Genome information resources - DNA sequence databases (GenBank, EMBL, DDBJ); genome information resources; formats of most common databases DNA sequence analysis - motivation and concepts; hierarchy of genomic information; expressed sequence tags Pairwise sequence alignment - algorithms; significance analysis; concept of identity and similarity; concept of local and global similarity Multiple sequence alignment - algorithms; search for gene families; identification of conserved family characteristics and motifs Secondary database searching - type of information: regular expressions, profiles, fingerprints, blocks, Hidden Markov Models Analysis packages - stand-alone suites; GCG; Staden; Vector NTI; CINEMA Protein structure modelling - protein structure; structural databases; prediction of secondary and tertiary structures

Teorie - modelování struktury proteinů úvod do struktury proteinů databáze proteinových struktur predikce sekundární struktury predikce proteinového foldu predikce terciární struktury predikce protein-ligandových komplexů structural databases; threading; prediction of secondary, tertiary and quaternary structures; calculation of properties; homology modelling; docking

Úvod do struktury proteinů Proteiny se skládají z aminokyselin vzájemně spojených peptidovou vazbou. V proteinech se přirozeně vyskytuje 20 různých aminokyselin. Strukturu proteinů lze experimentálně určit rentgenovou analýzou, nukleární magnetickou rezonancí a elektronovou kryokrystalografií. Úrovně struktury proteinů: primární struktura sekundární struktura terciární struktura kvartérní struktura

Schéma aminokyseliny (a) a polypeptidového řetězce (b)

Postranní řetězce 20-ti základních aminokyselin

Úrovně struktury proteinů

European Synchrotron Radiation Facility v Grenoble, Francie

Databáze proteinových struktur PDB PDBsum Databáze klasifikace proteinových struktur SCOP CATCH

Databáze proteinových struktur PDB - Protein Data Bank vyvinuta v Brookhaven National Laboratory nyní udržována v Research Collaboratory for Structural Bioinformatics (RSCB) světový depozitář 3D proteinových struktur struktury z krystalografické analýzy (80%), nukleární magnetické resonance (16%) a modelování (2%) struktury uloženy jako jednoduché (angl. flat) soubory obsahující část informační a část koordinátovou struktury mají jedinečný identifikační kód - PDB-ID umožňuje hledat struktury pomocí klíčových slov umožňuje interaktivně prohlížet struktury

Informace o záznamu v PDB databázi

Záznam v PDB databázi (hlavička) Header records - description of protein JNRL - bibliographic records REMARK - experimental details SEQRES - amino acid sequence HET - formula/name for heteroatoms HELIX/SHEET - description of secondary elements CRYST/ORIG/SCALE - crystal unit cell parameters ATOM - coordinates of protein atoms HETATOM - coordinates of ligand atoms CONECT - bond connectivity END - terminator

Záznam v PDB databázi (krystalografické informace) Header records - description of protein JNRL - bibliographic records REMARK - experimental details SEQRES - amino acid sequence HET - formula/name for heteroatoms HELIX/SHEET - description of secondary elements CRYST/ORIG/SCALE - crystal unit cell parameters ATOM - coordinates of protein atoms HETATOM - coordinates of ligand atoms CONECT - bond connectivity END - terminator

Záznam v PDB databázi (sekvence, sekundární elementy) Header records - description of protein JNRL - bibliographic records REMARK - experimental details SEQRES - amino acid sequence HET - formula/name for heteroatoms HELIX/SHEET - description of secondary elements CRYST/ORIG/SCALE - crystal unit cell parameters ATOM - coordinates of protein atoms HETATOM - coordinates of ligand atoms CONECT - bond connectivity END - terminator

Záznam v PDB databázi (koordináty) Header records - description of protein JNRL - bibliographic records REMARK - experimental details SEQRES - amino acid sequence HET - formula/name for heteroatoms HELIX/SHEET - description of secondary elements CRYST/ORIG/SCALE - crystal unit cell parameters ATOM - coordinates of protein atoms HETATOM - coordinates of ligand atoms CONECT - bond connectivity END - terminator

Databáze proteinových struktur PDBsum vyvinuta na University College London souhrn a analýza proteinových struktur (sekundární databáze odvozená z PDB) souhrn PDB struktur: rozlišení, R-faktor, počet proteinových řetězců, topologie, ligandy, ionty těžkých kovů, apod. analýza PDB struktur: protein-iont a protein-ligand interakce, validace struktur poskytuje odkazy do mnoha dalších databází Resolution = the extent to which closely juxtaposed objects can be distinguished as separate entities (determined by wavelength of electromagnetic radiation used) R-factor = expresses the extent of agreement between theoretical calculations and the measured data (R means Residual or Reliability)

Informace o záznamu v PDBsum databázi

Záznam v PDBsum databázi (sekundární elementy)

Databáze klasifikace proteinových struktur Klasifikací proteinových struktur se snažíme postihnout jejich strukturní podobnost. Strukturní podobnost (homologie) proteinů přímo souvisí s evolucí. Strukturní podobnost může implikovat funkci. Členění klasifikačních schémat je závislé na filosofii použité k jejich vytvoření.

Databáze klasifikace proteinových struktur SCOP - Structural Classification of Proteins vyvinuta v MRC Laboratory of Molecular Biology vkládání nových struktur: kombinací manuálních a automatických metod (zařazení komplikováno multi-doménovými proteiny) fold (angl. fold) = stejné sekundární elementy ve stejném uspořádání; nezávislé na evolučním původu super-rodina (angl. superfamily) = nízká sekvenční identita, ale společný evoluční původ zřejmý ze shodné struktury a funkce rodina (angl. family) = sekvenční identita >30% Seed sequence - scan database - new sequences added - news scan - etc.

Informace o záznamu ve SCOP databázi

Predikce sekundární struktury Algoritmy přiřadí s jakou pravděpodobností se na dané pozici v sekvenci bude vyskytovat a-šroubovice, b-řetězec, otočka nebo náhodná smyčka. Metody: statistické, stereochemické a metody založené na homologii. Veškeré metody využívají pravidla formulovaná ze studia experimentálně určených 3D struktur. Moderní metody využívají informaci získanou z mnohonásobného přiložení. Spolehlivost nejlepších metod je >70%.

Predikce sekundární struktury Chou-Fasman a GOR statistické - jednotlivé aminokyseliny vykazují rozdílnou preferenci pro různé sekundární elementy NNSSP a PREDATOR statistické - analýza nejbližšího souseda PHD a NNPredict homologní (neuronové sítě) - pravidla pro predikci jsou vytvořena automaticky trénováním neuronové sítě JPRED predikce vychází z konsensu několika různých metod; využívá mnohonásobné přiložení sekvencí

Srovnání predikcí sekundárních elementů různými metodami

Predikce proteinového foldu Navlékání (angl. threading) navlékání = rozpoznání a přiřazení proteinového foldu cílová sekvence je porovnávána s databází foldů (resp. jejich 3D profilů) a konstruovány jsou modely 3D profil - každému zbytku v 3D struktuře je přiřazena environmentální proměnná (skrytá plocha, část postranního řetězce obsahující polární atomy, sekund. elementy, apod.). Předpoklad - okolí zbytku je více konzervováno než zbytek samotný. zbytek může být rovněž popsán pomocí svých interakcí shoda cílové sekvence s 3D profilem (kvalita modelu) je popsána pomocí Z-skóre nebo energie limitace: nelze aplikovat na multi-doménové proteiny

Rozpoznání proteinového foldu navlékáním

Predikce proteinového foldu Bioinbgu používá konsensus predikcí 5 různých algoritmů 3D-PSSM skórovací funkce: 1D-PSSMs (sekvenční profily získány z relativně úzce příbuzných proteinů), 3D-PSSMs (obecnější profily obsahující vzdálenější příbuzné), přiřazení sekundárních elementů a dostupnost solventu jednotlivým pozicím v sekvenci GenThreader hybridní metoda: přiložení založené na profilech, hodnocení přiložení navlékáním, hodnocení modelů z navlékání neuronovou sítí

Predikce terciární struktury Ab initio 3D struktura proteinu je předpovězena s využitím základních principů chemie a fyziky (hledání struktury v globálním minimu) současné algoritmy nejsou příliš spolehlivé Homologní modelování (angl. homology modelling) 1. přiložení cílové sekvence se sekvencemi homologních proteinů se známou 3D strukturou (templáty) 2. extrakce uhlíkové páteře ze struktury templátu a umístění postranních řetězců 3. modelování otoček a smyček 4. upřesnění a validace modelované struktury

ROSETTA, ROBETTA, ROBETTA@home

Predikce terciární struktury SWISS-MODEL plně automatický modelovací server vstup = proteinová sekvence; výstup = struktura 1. hledání potenciálních templátů v ExNRL-3D pomocí BLASTP; 2. výběr všech templátů se sekvenční identitou >25%; 3. konstrukce modelů 3D struktur; 4. energetická minimalizace modelů programem GROMOS dva módy: první test a optimalizovaný (příprava vstupu a analýza výstupu programem Swiss-PDBViewer) MODELLER nejvíce rozšířený akademický program pro homologní modelování (volně dostupný)

Predikce protein-ligand komplexů Dokování (angl. docking) umísťování malých organických molekul (ligandů) do aktivních center proteinů nebo do žlábků DNA molekul náhodně generované orientace a konformace ligandu v blízkosti biomolekuly jsou hodnoceny geometrickými nebo/a energetickými skórovacímy funkcemi protein-ligand interakční energie = van der Waalsova energie + elektrostatická energie + energie vodíkové vazby + entropie flexibilní dokování - hodnoceny jsou různé konformace ligandu a různé rotamery postranních řetězců Software: DOCK, AUTODOCK, FLEX