Molekulárně biologické databáze

Slides:



Advertisements
Podobné prezentace
Stránka 1, © Vema, a. s.. Stránka 2, © Vema, a. s. Podnikové aplikace  Integrovaný podnikový systém (Integrated Business System):  komplex aplikací.
Advertisements

Podpora terénních prací v projektu NIKM - národní inventarizace kontaminovaných míst, automatizace úloh Roman Bukáček, Jiří Chroust, Petr Pala, Jiří Zvolánek,
 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.
Souborové systémy.
Dana Sigmundová E-books jako zdroj odborných informací ÚK FSS MU, Ústřední knihovna FSS MU.
3.1. Typy vědeckých sdělení a periodik ústní forma - víceméně nezávazná forma sdělení, nezakládá prioritu sdělení formou semináře či přednášky na konferenci.
B130P16: Praktické základy vědecké práce Katedra experimentální biologie rostlin PřF UK SciVerse - plnotextové vyhledávání.
Teoretická výpočetní chemie
Praktikum základů genomiky, zima 2007 Základy genomiky I. Úvod do bioinformatiky Jan Hejátko Masarykova univerzita, Laboratoř funkční genomiky a proteomiky.
Vytvořil: Robert Döring
ISS Úvodní informace o kurzu Sekundární analýza Management sociálních dat a datové archivy Jindřich Krejčí.
Bohdana Stoklasová Národní knihovna ČR
Bioinformatický a chemoinformatický výzkum v Loschmidtových laboratořích Loschmidtovy laboratoře, Ústav experimentální biologie, Výzkumné centrum toxických.
BIOCEV Biotechnologické a biomedicínské centrum Akademie věd a Univerzity Karlovy.
What is Bioinformatics?---The Tight Definition "Classical" bioinformatics Fredj Tekaia at the Institut Pasteur offers this definition of bioinformatics:
Relační databáze.
Seznamy digitálních knihoven
Oborová informační brána KIV Jak ji využívat. Bránu KIV vytvořili Hlavní garant: Knihovnický institut NK ČR Technologie: Ústav výpočetní techniky UK v.
Počítačová část 1. Databáze na internetu: (Databáze, navržení primerů) 2. Fylogenetická analýza.
Studijní informační zdroje (a jak se k nim dostat) Pro předmět Jazykový projev (2014/15) připravila Eva Cerniňáková Jabok - Vyšší odborná škola sociálně.
Šedá literatura a SIGLE Knihovna AV ČR
Projekt HUGO – milníky - I
Šedá literatura Zuzana Janušová.
DNA bankování pro lékařský výzkum „informovaný souhlas“ OLG FN Brno.
Projekt Enterprise Europe Network Technologické centrum AV ČR Kouty nad Desnou APROCHEM2013, OZE2013, ODPADOVÉ FÓRUM
Dolce: Databáze lokálních konformací DNA
Jiří Vondrášek Ústav organické chemie a biochemie AV ČR Bioinformatika podzimní škola výpočetní chemie, Praha 2006.
B130P16: Praktické základy vědecké práce Katedra experimentální biologie rostlin PřF UK iHOP - plnotextové vyhledávání Pubmed.
B130P16: Praktické základy vědecké práce Katedra fyziologie rostlin, PřF UK RNDr. Jan Petrášek, Ph.D. Základní dělení 3.1.
Molekulární základy dědičnosti
DNA.
Genomika hospodářských zvířat
Sekvenování.
EVALUACE WWW ELEKTRONICKÉ INFORMAČNÍ ZDROJE Petr Sejk
Datovýsklad Datový sklad V budoucích službách státního archivu.
Podnikání na Internetu internet - zdroj informací Letní semestr 2005 Jana Holá III.
Microarrays and chips M .Jurajda.
DATABÁZE N á zev š kolyZ á kladn í š kola a Mateřsk á š kola Tatenice Č í slo projektuCZ N á zev š ablony kl í čov é aktivity Inovace a zkvalitněn.
B i o c y b e r n e t i c s G r o u p Nový obor - počítače v medicíně a biologii  Proč je management informací ústřední otázkou v biomedicínském výzkumu.
Informační zdroje pro molekulární biologii M. Jurajda.
EXPRESE GENETICKÉ INFORMACE Transkripce
Vývoj RDA Jarmila Přibylová NK ČR. Page  2 RDA  : práce na AACR3  : práce na RDA 2007 – nová struktura pravidel (přizpůsobení modelům.
Molekulárně biologické databáze Pro zajímavost, nebude součástí zkoušky… Důležité, pravděpodobně bude u zkoušky…
DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ
Bioinformatika pro PfUK 2002
Katalogy a databáze I. Mgr. Anna Vitásková. Knihovny Národní knihovna Praha – Vědecká knihovna v Olomouci –
Proteinové databáze.
CG020 Genomika Bi7201 Základy genomiky Přednáška 1
Biotechnologie, technologie budoucnosti Aleš Eichmeier.
Základy molekulární genetiky. Bílkoviny Makromolekuly složené z aminokyselin jedna molekula bílkoviny tvořena obvykle stovkami aminokyselin v živých organismech.
Seznamy digitálních knihoven
Molekulárně-biologické databáze
Budování Integrovaného informačního systému Národního památkového ústavu Petr Volfík, NPÚ ÚP
Molekulárně biologické databáze
The Ministry for Regional Development of the Czech Republic (MRD)
Driver Bezplatný portál umožňující přístup k více než
Akvizice a informační fond
Nukleové kyseliny Charakteristika: biopolymery
Modelování struktury proteinů
Metody analýzy mikroorganismů II
Fylogenetická evoluční analýza
Proteomika Bruno Sopko.
Základy genomiky V. Analýza protein-proteinových interakcí Jan Hejátko
3. Odborná literatura, její zdroje na internetu a PřFUK
Molekulární základy genetiky
Seznamy digitálních knihoven
3. Odborná literatura, její zdroje na internetu a PřFUK
Seznamy digitálních knihoven
MiRNA
Vytvořil: Robert Döring
Transkript prezentace:

Molekulárně biologické databáze Pro zajímavost… Důležité…

Molekulárně biologická data

Molekulárně biologická data MALDI-TOF Identifikace proteinů Sekvenace proteinů

Molekulárně biologická data Proteinová krystalografie NMR spektroskopie

Molekulárně biologická data Výkonné technologie: Automatické sekvencování MALDI-TOF NMR spektroskopie Proteinová krystalografie Výrazný nárůst množství biologických dat.

19. 4. 2010 64623

20. 4. 2011 72550

3. 4. 2012 80550

Éra reverzní genetiky Klasická genetika Fenotyp Genotyp

Produkce velkého množství dat Automatické DNA sekvencování Éra reverzní genetiky Klasická genetika Fenotyp Genotyp Produkce velkého množství dat Automatické DNA sekvencování Genotyp Fenotyp Reverzní genetika Bi7201 Základy genomiky, podzimní semestr

Molekulárně biologická data Nutnost organizovaného ukládání a skladování dat. Databáze je určitá uspořádaná množina informací (dat) uložená na paměťovém médiu.

Molekulárně biologická data Nutnost organizovaného ukládání a skladování dat. Nutnost prohlížení a analyzování uložených dat. Databáze je určitá uspořádaná množina informací (dat) uložená na paměťovém médiu. V širším smyslu jsou součástí databáze i softwarové prostředky, které umožňují manipulaci s uloženými daty a přístup k nim.

Analytické nástroje Vyhledávácí software Nutnost snadného, rychlého a specifického vyhledání informací. Srovnávání dat (sekvencí) Sequence alignment – „seřazení“ sekvencí.

Rozdělení molekulárně biologických databází Databáze: Primární Sekundární Strukturní EDRPIKFSTEGATSQSYKQFIEALRERLRGGLIHDIPVLPDPTTLQERNRYITVELSNSDTESIEVGIDVTNAYVVAYRAGTQSYFLRDAPSSASDYLFTGTDQHSLPFYGTYGDLERWAHQSRQQIPLGLQALTHGISFFRSGGNDNEEKARTLIVIIQMVAEAARFRYISNRVRVSIQTGTAFQPDAAMISLENNWDNLSRGVQESVQDTFPNQVTLTNIRNEPVIVDSLSHPTVAVLALMLFVCNPPNIVEKSKICSSRYEPTVRIGGRDGMCVDVYDNGYHNGNRIIMWKCKDRLEENQLWTLKSDKTIRSNGK Ribosome-inactivating protein, subdomain 1 Ribosome-inactivating protein, subdomain 2 Ricin B-like lectins

Rozdělení molekulárně biologických databází Databáze: Primární Sekundární Strukturní EDRPIKFSTEGATSQSYKQFIEALRERLRGGLIHDIPVLPDPTTLQERNRYITVELSNSDTESIEVGIDVTNAYVVAYRAGTQSYFLRDAPSSASDYLFTGTDQHSLPFYGTYGDLERWAHQSRQQIPLGLQALTHGISFFRSGGNDNEEKARTLIVIIQMVAEAARFRYISNRVRVSIQTGTAFQPDAAMISLENNWDNLSRGVQESVQDTFPNQVTLTNIRNEPVIVDSLSHPTVAVLALMLFVCNPPNIVEKSKICSSRYEPTVRIGGRDGMCVDVYDNGYHNGNRIIMWKCKDRLEENQLWTLKSDKTIRSNGK Primární databáze obsahují anotované sekvence NA nebo proteinů.

Rozdělení molekulárně biologických databází Databáze: Primární Sekundární Strukturní EDRPIKFSTEGATSQSYKQFIEALRERLRGGLIHDIPVLPDPTTLQERNRYITVELSNSDTESIEVGIDVTNAYVVAYRAGTQSYFLRDAPSSASDYLFTGTDQHSLPFYGTYGDLERWAHQSRQQIPLGLQALTHGISFFRSGGNDNEEKARTLIVIIQMVAEAARFRYISNRVRVSIQTGTAFQPDAAMISLENNWDNLSRGVQESVQDTFPNQVTLTNIRNEPVIVDSLSHPTVAVLALMLFVCNPPNIVEKSKICSSRYEPTVRIGGRDGMCVDVYDNGYHNGNRIIMWKCKDRLEENQLWTLKSDKTIRSNGK Ribosome-inactivating protein, subdomain 1 Ribosome-inactivating protein, subdomain 2 Ricin B-like lectins Sekundární databáze obsahují informace odvozené z primárních databází ve formě charakteristických vzorů sekvencí, tj. funkčních nebo strukturních motivů získaných srovnáním primárních dat (sekvencí).

Rozdělení molekulárně biologických databází Databáze: Primární Sekundární Strukturní Abrin Obsahují struktury proteinů (nukleových kyselin) a jejich anotace.

Rozdělení molekulárně biologických databází Databáze: Primární Sekundární Strukturní Genomové zdroje

Rozdělení molekulárně biologických databází Databáze: Specializované Univerzální

Rozdělení molekulárně biologických databází Databáze: Specializované Univerzální Specializované databáze obsahují informace o určité proteinové rodině nebo skupině proteinů, případně o určitém organismu.

Rozdělení molekulárně biologických databází Databáze: Specializované Univerzální Univerzální databáze obsahují informace o proteinech (NA) ze všech organismů.

Rozdělení univerzálních proteinových databází Univerzální databáze: „Skladiště“ sekvencí – sequence repository „Manuálně“ spravovaná – curated database

Rozdělení univerzálních proteinových databází „Skladiště“ sekvencí – sequence repository Kromě sekvencí obsahují málo nebo žádné dodatečné informace. Záznamy generovány automaticky. Proteiny mohou být zastoupeny několika různými záznamy (sekvencemi) = „nadbytečnost“ (redundance) sekvencí.

Rozdělení univerzálních proteinových databází Manuálně spravované – curated databases Záznamy obsahují dodatečné informace. Informace jsou před vložením do databáze validovány experty. Všechny záznamy o stejné proteinové sekvenci jsou sdružovány do jediného = non-redundant dataset.

Rozdělení molekulárně biologických databází Databáze: Primární Sekundární Strukturní Genomové zdroje Složené databáze

Složené databáze Slučují data z několika primárních databází. Složené (composite) databáze: Slučují data z několika primárních databází. Eliminace redundantních dat. Různá priorita zdrojových databází podle kvality validace a anotace (eliminace redundantních dat z databáze s nižší prioritou).

Molekulárně biologické databáze http://www3.oup.co.uk/nar/database/a/ Nucleotide Sequence Databases International Nucleotide Sequence Database Collaboration Coding and non-coding DNA Gene structure, introns and exons, splice sites Transcriptional regulator sites and transcription factors RNA sequence databases Protein sequence databases Structure Databases Genomics Databases (non-vertebrate) Metabolic and Signaling Pathways Human and other Vertebrate Genomes Human Genes and Diseases Microarray Data and other Gene Expression Databases Proteomics Resources Other Molecular Biology Databases Organelle databases Plant databases Immunological databases 2011: 1330 databází

Molekulárně biologické databáze http://www3.oup.co.uk/nar/database/a/ Nucleotide Sequence Databases International Nucleotide Sequence Database Collaboration Coding and non-coding DNA Gene structure, introns and exons, splice sites Transcriptional regulator sites and transcription factors RNA sequence databases Protein sequence databases Structure Databases Genomics Databases (non-vertebrate) Metabolic and Signaling Pathways Human and other Vertebrate Genomes Human Genes and Diseases Microarray Data and other Gene Expression Databases Proteomics Resources Other Molecular Biology Databases Organelle databases Plant databases Immunological databases 2012: 1380 databází

pro biotechnologické informace EBI/NCBI/CIB Instituce zabývající se shromažďováním, správou a poskytováním dat a informací a vývojem analytických nástrojů. http://www.ncbi.nlm.nih.gov/ EBI Evropský institut pro bioinformatiku http://www.ebi.ac.uk/ Center for Information Biology CIB Centrum pro informační biologii http://www.cib.nig.ac.jp/ National Center for Biotechnology Information NCBI Národní centrum pro biotechnologické informace

EBI – Evropský institut pro bioinformatiku Založen roku 1992 jako součást European Molecular Biology Laboratory - EMBL. Sídlo v Hinxtonu ve Velké Británii.

NCBI - Národní centrum pro biotechnologické informace Založeno v roce 1988 jako oddělení Národní lékařské knihovny (National Library of Medicine – NLM) v USA. Součást National Institutes of Health – NIH.

CIB – Centrum pro informační biologii Založeno jako oddělení Národního genetického institutu ( , NIG) v Japonsku. http://www.nig.ac.jp/

Primární databáze NA EMBL - Evropský institut pro bioinformatiku GenBank - Národní centrum pro biotechnologické informace DDBJ - Národní genetický institut (NIG)

EMBL EMBL Nucleotide Sequence Database (EMBL-Bank) byla založena roku 1980 jako první databáze nukleotidových sekvencí. Obsahuje sekvence RNA a DNA. Zdroje sekvencí: vloženy přímo autory, genomové projekty, patenty This week the EMBL Database contained 301,588,430,608 nucleotides in 199,575,971 entries This week = 20.4.2011

EMBL EMBL Nucleotide Sequence Database (EMBL-Bank) – součást ENA (European Nucleotide Archive). http://www.ebi.ac.uk/ena/home

The map shows 18,628,656 entries distributed over 57,974 locations. The dots on the map have different colours according to the taxonomy of the specimens:  Eukaryota      Bacteria      Archaea      Other     Mixed 2010

The map shows 18,628,656 entries distributed over 57,974 locations. The dots on the map have different colours according to the taxonomy of the specimens:  Eukaryota      Bacteria      Archaea      Other     Mixed 2010

The map shows 18,710,024 entries distributed over 62,882 locations. The dots on the map have different colours according to the taxonomy of the specimens:  Eukaryota      Bacteria      Archaea      Other     Mixed 2012

EMBL „entry“

Translation = proteinová databáze

Formát EMBL databáze

Formát EMBL databáze http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html

Formát EMBL databáze http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html

Formát EMBL databáze http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html

GenBank Založena roku 1982 v rámci institutu NCBI. http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

The DNA Data Bank of Japan Původně zahrnovala data především z japonských výzkumů. V součastnosti úzká spolupráce s ostatními databázemi.

http://www.insdc.org/

Primární databáze proteinů Univerzální databáze: „Skladiště“ sekvencí – sequence repository Manuálně spravovaná – curated database Příklad: GenBank versus RefSeq

Primární databáze proteinů GenPept - GenBank Gene Products Data Bank RefSeq - Reference Sequence

Primární databáze proteinů PIR-PSD - Protein Information Resource Protein Sequence Database. Nejstarší univerzální „curated“ databáze proteinů. Komplexní, non-redundant data, rozčleněna podle proteinových rodin a nadrodin, doplněna funkčními, strukturními a bibligrafickými daty. http://pir.georgetown.edu/

Swiss-PROT + TrEMBL Swiss-Prot - „Curated“ databáze založená na Univerzitě v Ženevě v roce 1986. Spravovaná Švýcarským institutem pro bioinformatiku (SIB - Swiss Institute of Bioinformatics). Vysoká úroveň anotace vkládáno více sekvencí než je možno manuálně anotovat a zařadit do databáze. TrEMBL – Počítačově anotovaná data, odvozená z kódujících úseku sekvencí v DDBJ/EMBL/GenBank, která ZATÍM nejsou zařazena v Swiss-Prot.

Swiss-PROT + TrEMBL Anotace: Funkce Katalytická aktivita Podjednotky Domény Biotechnologické využití Sekvenční homologie Posttranslační modifikace Reference atd. http://www.expasy.org/sprot/

Složené databáze Databáze: Primární Sekundární Strukturní Genomové zdroje Složené databáze

Složené databáze Slučují data z několika primárních databází. Složené (composite) databáze: Slučují data z několika primárních databází. Eliminace redundantních dat. Různá priorita zdrojových databází podle kvality validace a anotace (eliminace redundantních dat z databáze s nižší prioritou). Swiss-PROT + TrEMBL OWL (Swiss-PROT + PIR + Genbank + NRL-3D)

- spolupráce mezi EBI, SIB a PIR UniProt - spolupráce mezi EBI, SIB a PIR http:/www.uniprot.org

Sekundární databáze NA a proteinů Sekundární databáze obsahují informace odvozené z primárních databází ve formě charakteristických vzorů sekvencí, tj. funkčních nebo strukturních motivů získaných srovnáním primárních dat (sekvencí). Vyhledávání „vzoru“ charakteristického pro určitou skupinu proteinů. Možnost predikce funkce proteinů.

Sekundární databáze NA a proteinů Databáze mohou obsahovat: Proteinové DOMÉNY odvozené ze známých struktur Proteinové sekvence seřazené do SEKVENČNÍCH RODIN CHARAKTERISTICKÉ MOTIVY odvozené z těchto sekvenčních rodin.

Sekundární databáze NA a proteinů Sekundární proteinové databáze: PROSITE, Pfam, PRINTS, ProDom, SMART, TIGRFAMS V současné době sdruženy do integrované klasifikační databáze proteinů InterPro http://www.ebi.ac.uk/interpro/

Sekundární databáze NA a proteinů Sekundární proteinové databáze: PROSITE, Pfam, PRINTS, ProDom, SMART, TIGRFAMS V současné době sdruženy do integrované klasifikační databáze proteinů InterPro http://www.ebi.ac.uk/InterProscan/ Sekundární databáze NA TRANSFAC

Strukturní databáze http://www3.oup.co.uk/nar/database/a/

Strukturní databáze proteinů

PDB - Protein Data Bank Databáze obsahuje experimentálně získané struktury proteinů, nukleových kyselin a komplexů informačních biomakromolekul. http://www.rcsb.org/pdb/

PDB formát PDB formát – původní formát databáze. 1997 – mmCIF (macromolecular Crystallographic Information File). Záznamy jsou v databázi uloženy v obou formátech a volně stažitelné. PDB formát – rozeznáván téměř všemi programy pro práci se strukturami.

PDB formát Abrin

Strukturní databáze NA

NDB - Nucleic Acid Database http://ndbserver.rutgers.edu/

EBI, NCBI – genomové databáze Genomové zdroje EBI, NCBI – genomové databáze

Vyhledávací systémy Nutnost organizovaného ukládání a skladování dat. Nutnost prohlížení a analyzování uložených dat. Databáze je určitá uspořádaná množina informací (dat) uložená na paměťovém médiu. V širším smyslu jsou součástí databáze i softwarové prostředky, které umožňují manipulaci s uloženými daty a přístup k nim.

Vyhledávací systémy Textové vyhledávání v databázích NCBI – Entrez http://www.ncbi.nlm.nih.gov/Entrez/ http://www.ncbi.nlm.nih.gov/Entrez/tutor.html

Textové vyhledávání v databázích EBI– SRS Sequence Retrieval System http://srs.ebi.ac.uk/

Vyhledávací systémy Vyhledávání podobností sekvencí Textové vyhledávání může selhat (nedostatečná anotace). Vyskytuje se shodná nebo podobná sekvence v databázi? (Identifikace možné funkce na základě homologie.) Specializované nástroje (algoritmy) pro „seřazení“ (alignment) sekvencí.

Shrnutí Výrazný nárůst množství biologických dat vede k nutnosti jejich organizovaného skladování a analyzování (databáze). Instituce pro správu dat a vývoj nástrojů pro analýzu: EBI/NCBI/CIB Základní rozdělení databází: primární/sekundární/strukturní databáze Textové vyhledávací systémy: Entrez/SRS