Modelování struktury proteinů

Modelování struktury proteinů
Jiří Damborský Loschmidtovy laboratoře, Masarykova univerzita Kamenice 5/A4, 2.32, tel ,

Modelování struktury proteinů
Teorie - úvod do struktury proteinů, databází proteinových struktur a jejich modelování Demonstrace - modelování protein-ligandových interakcí, dynamiky proteinů a enzymatických reakcí Introduction - what is it Bioinformatics? why is it important? history: manual sequencing (1 sequence/year), automated (1 sequence/min); sequence/structure deficit ... analysis of sequences to deduce function; secondary and tertiary structure prediction reliability Information networks - Internet; WWW; service providers; browsers; software for linking and distributing databases; web addresses on Bioinformatics Protein information resources - protein databases; data levels - primary, secondary and tertiary; formats of most common databases (SWISS-PROT, PROSITE); evolution of composite databases and integrated database projects Genome information resources - DNA sequence databases (GenBank, EMBL, DDBJ); genome information resources; formats of most common databases DNA sequence analysis - motivation and concepts; hierarchy of genomic information; expressed sequence tags Pairwise sequence alignment - algorithms; significance analysis; concept of identity and similarity; concept of local and global similarity Multiple sequence alignment - algorithms; search for gene families; identification of conserved family characteristics and motifs Secondary database searching - type of information: regular expressions, profiles, fingerprints, blocks, Hidden Markov Models Analysis packages - stand-alone suites; GCG; Staden; Vector NTI; CINEMA Protein structure modelling - protein structure; structural databases; prediction of secondary and tertiary structures

Teorie - modelování struktury proteinů
úvod do struktury proteinů databáze proteinových struktur predikce sekundární struktury predikce proteinového foldu predikce terciární struktury predikce protein-ligandových komplexů structural databases; threading; prediction of secondary, tertiary and quaternary structures; calculation of properties; homology modelling; docking

Úvod do struktury proteinů
Proteiny se skládají z aminokyselin vzájemně spojených peptidovou vazbou. V proteinech se přirozeně vyskytuje 20 různých aminokyselin. Strukturu proteinů lze experimentálně určit rentgenovou analýzou, nukleární magnetickou rezonancí a elektronovou kryokrystalografií. Úrovně struktury proteinů: primární struktura sekundární struktura terciární struktura kvartérní struktura

Schéma aminokyseliny (a) a polypeptidového řetězce (b)

Postranní řetězce 20-ti základních aminokyselin

Úrovně struktury proteinů

European Synchrotron Radiation Facility v Grenoble, Francie

Databáze proteinových struktur
PDB PDBsum Databáze klasifikace proteinových struktur SCOP CATCH

PDB - Protein Data Bank vyvinuta v Brookhaven National Laboratory nyní udržována v Research Collaboratory for Structural Bioinformatics (RSCB) světový depozitář 3D proteinových struktur struktury z krystalografické analýzy (80%), nukleární magnetické resonance (16%) a modelování (2%) struktury uloženy jako jednoduché (angl. flat) soubory obsahující část informační a část koordinátovou struktury mají jedinečný identifikační kód - PDB-ID umožňuje hledat struktury pomocí klíčových slov umožňuje interaktivně prohlížet struktury

Informace o záznamu v PDB databázi

Záznam v PDB databázi (hlavička)
Header records - description of protein JNRL - bibliographic records REMARK - experimental details SEQRES - amino acid sequence HET - formula/name for heteroatoms HELIX/SHEET - description of secondary elements CRYST/ORIG/SCALE - crystal unit cell parameters ATOM - coordinates of protein atoms HETATOM - coordinates of ligand atoms CONECT - bond connectivity END - terminator

Záznam v PDB databázi (krystalografické informace)

Záznam v PDB databázi (sekvence, sekundární elementy)

Záznam v PDB databázi (koordináty)

PDBsum vyvinuta na University College London souhrn a analýza proteinových struktur (sekundární databáze odvozená z PDB) souhrn PDB struktur: rozlišení, R-faktor, počet proteinových řetězců, topologie, ligandy, ionty těžkých kovů, apod. analýza PDB struktur: protein-iont a protein-ligand interakce, validace struktur poskytuje odkazy do mnoha dalších databází Resolution = the extent to which closely juxtaposed objects can be distinguished as separate entities (determined by wavelength of electromagnetic radiation used) R-factor = expresses the extent of agreement between theoretical calculations and the measured data (R means Residual or Reliability)

Informace o záznamu v PDBsum databázi

Záznam v PDBsum databázi (sekundární elementy)

Databáze klasifikace proteinových struktur
Klasifikací proteinových struktur se snažíme postihnout jejich strukturní podobnost. Strukturní podobnost (homologie) proteinů přímo souvisí s evolucí. Strukturní podobnost může implikovat funkci. Členění klasifikačních schémat je závislé na filosofii použité k jejich vytvoření.

Databáze klasifikace proteinových struktur
SCOP - Structural Classification of Proteins vyvinuta v MRC Laboratory of Molecular Biology vkládání nových struktur: kombinací manuálních a automatických metod (zařazení komplikováno multi-doménovými proteiny) fold (angl. fold) = stejné sekundární elementy ve stejném uspořádání; nezávislé na evolučním původu super-rodina (angl. superfamily) = nízká sekvenční identita, ale společný evoluční původ zřejmý ze shodné struktury a funkce rodina (angl. family) = sekvenční identita >30% Seed sequence - scan database - new sequences added - news scan - etc.

Informace o záznamu ve SCOP databázi

Predikce sekundární struktury
Algoritmy přiřadí s jakou pravděpodobností se na dané pozici v sekvenci bude vyskytovat a-šroubovice, b-řetězec, otočka nebo náhodná smyčka. Metody: statistické, stereochemické a metody založené na homologii. Veškeré metody využívají pravidla formulovaná ze studia experimentálně určených 3D struktur. Moderní metody využívají informaci získanou z mnohonásobného přiložení. Spolehlivost nejlepších metod je >70%.

Predikce sekundární struktury
Chou-Fasman a GOR statistické - jednotlivé aminokyseliny vykazují rozdílnou preferenci pro různé sekundární elementy NNSSP a PREDATOR statistické - analýza nejbližšího souseda PHD a NNPredict homologní (neuronové sítě) - pravidla pro predikci jsou vytvořena automaticky trénováním neuronové sítě JPRED predikce vychází z konsensu několika různých metod; využívá mnohonásobné přiložení sekvencí

Srovnání predikcí sekundárních elementů různými metodami

Predikce proteinového foldu
Navlékání (angl. threading) navlékání = rozpoznání a přiřazení proteinového foldu cílová sekvence je porovnávána s databází foldů (resp. jejich 3D profilů) a konstruovány jsou modely 3D profil - každému zbytku v 3D struktuře je přiřazena environmentální proměnná (skrytá plocha, část postranního řetězce obsahující polární atomy, sekund. elementy, apod.). Předpoklad - okolí zbytku je více konzervováno než zbytek samotný. zbytek může být rovněž popsán pomocí svých interakcí shoda cílové sekvence s 3D profilem (kvalita modelu) je popsána pomocí Z-skóre nebo energie limitace: nelze aplikovat na multi-doménové proteiny

Rozpoznání proteinového foldu navlékáním

Predikce proteinového foldu
Bioinbgu používá konsensus predikcí 5 různých algoritmů 3D-PSSM skórovací funkce: 1D-PSSMs (sekvenční profily získány z relativně úzce příbuzných proteinů), 3D-PSSMs (obecnější profily obsahující vzdálenější příbuzné), přiřazení sekundárních elementů a dostupnost solventu jednotlivým pozicím v sekvenci GenThreader hybridní metoda: přiložení založené na profilech, hodnocení přiložení navlékáním, hodnocení modelů z navlékání neuronovou sítí

Predikce terciární struktury
Ab initio 3D struktura proteinu je předpovězena s využitím základních principů chemie a fyziky (hledání struktury v globálním minimu) současné algoritmy nejsou příliš spolehlivé Homologní modelování (angl. homology modelling) 1. přiložení cílové sekvence se sekvencemi homologních proteinů se známou 3D strukturou (templáty) 2. extrakce uhlíkové páteře ze struktury templátu a umístění postranních řetězců 3. modelování otoček a smyček 4. upřesnění a validace modelované struktury

ROSETTA, ROBETTA, ROBETTA@home

Predikce terciární struktury
SWISS-MODEL plně automatický modelovací server vstup = proteinová sekvence; výstup = struktura 1. hledání potenciálních templátů v ExNRL-3D pomocí BLASTP; 2. výběr všech templátů se sekvenční identitou >25%; 3. konstrukce modelů 3D struktur; 4. energetická minimalizace modelů programem GROMOS dva módy: první test a optimalizovaný (příprava vstupu a analýza výstupu programem Swiss-PDBViewer) MODELLER nejvíce rozšířený akademický program pro homologní modelování (volně dostupný)

Predikce protein-ligand komplexů
Dokování (angl. docking) umísťování malých organických molekul (ligandů) do aktivních center proteinů nebo do žlábků DNA molekul náhodně generované orientace a konformace ligandu v blízkosti biomolekuly jsou hodnoceny geometrickými nebo/a energetickými skórovacímy funkcemi protein-ligand interakční energie = van der Waalsova energie + elektrostatická energie + energie vodíkové vazby + entropie flexibilní dokování - hodnoceny jsou různé konformace ligandu a různé rotamery postranních řetězců Software: DOCK, AUTODOCK, FLEX

Modelování struktury proteinů

Podobné prezentace

Prezentace na téma: "Modelování struktury proteinů"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

Modelování struktury proteinů

Podobné prezentace

Prezentace na téma: "Modelování struktury proteinů"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář