Bioinformatika Radka Storchová.

Slides:



Advertisements
Podobné prezentace
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Advertisements

Zarovnávání biologických sekvencí
Teoretická výpočetní chemie
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Jiří Novák
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Ing. Jiří Novák
Praktikum základů genomiky, zima 2007 Základy genomiky I. Úvod do bioinformatiky Jan Hejátko Masarykova univerzita, Laboratoř funkční genomiky a proteomiky.
Shluková analýza.
Imunologické, mikrosatelity, SSCP, SINE
Určení rodičů (analýza paternity)
Počítačová část 1. Databáze na internetu: (Databáze, navržení primerů) 2. Fylogenetická analýza.
Genetické metody v zoologii
Nová metoda pro generování 2D farmakoforového modelu David Hoksza 1,2, Daniel Svozil 2 SIRET Research Group MFF UK Laboratoř informatiky a chemie FCHT.
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Transkriptom.
Počítačová část 1. Databáze na internetu: (Databáze, navržení primerů) 2. Fylogenetická analýza.
B130P16: Praktické základy vědecké práce Katedra fyziologie rostlin, PřF UK RNDr. Jan Petrášek, Ph.D. Nezbytnost průběžného.
2 Petr Žitný znalosti.vema.cz 3 Báze znalostí Nová služba zákazníkům ▸Báze naplněná informacemi, ke které mají uživatelé přímý přístup Základní cíl ▸Poskytovat.
Molekulární základy dědičnosti
Sekvenování.
BLAST (basic local alignment search tool) Vyhledává podobné sekvence v databázích. Stal se nástrojem pro všechno. Určitou dobu kolektiv autorů držel krok.
Klomfar Petr.  Adresářová služba  specializovaná databáze optimalizovaná pro čtení a vyhledávání.  popisující objekt pomocí atributů. Na rozdíl od.
Kanonické indexování vrcholů molekulového grafu Molekulový graf: G = (V, E, L, ,  ) Indexování vrcholů molekulového grafu G: bijekce  : V  I I je indexová.
Molekulární biotechnologie č.6b Zvýšení produkce rekombinatního proteinu.
Microarrays and chips M .Jurajda.
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
EXPRESE GENETICKÉ INFORMACE Transkripce
Molekulárně biologické databáze
Molekulárně biologické databáze Pro zajímavost, nebude součástí zkoušky… Důležité, pravděpodobně bude u zkoušky…
SEKVENCE A:MASAQSFYLL SEKVENCE B:MASGQWLLAS Které oblasti A a B jsou si nejvíce podobné ? Jsou si A a B víc podobné než A a C ? Která ze sekvencí X1,...,Xn.
DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ
Nukleové kyseliny Přírodní látky
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Radovan Horák, Romana Zaoralová, Jiří Voller
Bioinformatika pro PfUK 2002
Jan Pačes Ústav molekulární genetiky Jiří Vondrášek Ústav organické chemie a biochemie Alignment I
Vývoj mikrosatelitních markerů (SSR) KBO/125 Jiří Košnar, katedra botaniky PřF JU, 2012 Kurz byl financován z projektu FRVŠ 1904/2012.
DNA diagnostika II..
„AFLP, amplified fragment length polymorphism“
2014 Výukový materiál GE Tvůrce: Mgr. Šárka Vopěnková Projekt: S anglickým jazykem do dalších předmětů Registrační číslo: CZ.1.07/1.1.36/
Expresní DNA microarray
CG020 Genomika Bi7201 Základy genomiky Přednáška 1
Praktikum z genetiky rostlin JS Genetické mapování mutace lycopodioformis Arabidopsis thaliana Genetické mapování genu odolnosti k padlí.
Vítězslav Kříž, Biologický ústav LF MU
Sekvencování DNA stanovení pořadí nukleotidů v molekule DNA (primární struktury)
Mikročipy ..
BUNĚČNÁ PAMĚŤ paměť - schopnost systému zaznamenat,uchovávat a ev. předávat   informaci buněčná paměť - schopnost buňky uchovávat informaci pro svou reprodukci,
Molekulární biotechnologie č.10a Využití poznatků molekulární biotechnologie. Molekulární diagnostika.
Úvod do databází zkrácená verze.
Explorační analýza kvantitativní proměnné (MS Excel) Martina Litschmannová.
● Databaze je soubor dat,slouží pro popis reálného světa(např.evidence čkolní knihovny..) ● Relační databaze je databáze založená na relačním modelu.
Biotechnologie, technologie budoucnosti Aleš Eichmeier.
Základy molekulární genetiky. Bílkoviny Makromolekuly složené z aminokyselin jedna molekula bílkoviny tvořena obvykle stovkami aminokyselin v živých organismech.
SEKVENOVÁNÍ DNA. Jedna z metod studia genů Využití v aplikovaných oblastech molekulární biologie – např. medicíně při diagnostice genetických chorob.
Ch_060_Nukleové kyseliny Ch_060_Přírodní látky_Nukleové kyseliny Autor: Ing. Mariana Mrázková Škola: Základní škola Slušovice, okres Zlín, příspěvková.
Projekt HAPMAP Popis haplotypů
Ukládání dat biodiverzity a jejich vizualizace
Molekulárně-biologické databáze
NÁZEV ŠKOLY: ČÍSLO PROJEKTU: NÁZEV MATERIÁLU: TÉMA SADY: ROČNÍK:
NÁZEV ŠKOLY: ČÍSLO PROJEKTU: NÁZEV MATERIÁLU: TÉMA SADY: ROČNÍK:
Klonování DNA a fyzikální mapování genomu
Nukleové kyseliny Charakteristika: biopolymery
„Next-Gen“ Sequencing
Fylogenetická evoluční analýza
Ivana Eštočinová, Pavla Fabulová, Markéta Formánková
Základy genomiky V. Analýza protein-proteinových interakcí Jan Hejátko
1. Regulace genové exprese:
Molekulární základy genetiky
Statistika a výpočetní technika
Jak získáváme znaky pomocí sekvenace unikátních lokusů
MiRNA
Transkript prezentace:

Bioinformatika Radka Storchová

rozšiřující přednášky Fatima Cvrčková: Úvod do bioinformatiky Jan Pačes a Jiří Vondrášek: Bioinformatika doporučená literatura Fatima Cvrčková: Úvod do praktické bioinformatiky, Academia 2006 přednášky a konference společnosti FOBIA Czech Free & Open Bioinformatic Association http://fobia.img.cas.cz/

Bioinformatická data DNA RNA protein nukleotidové sekvence genová exprese RNA Náplň přednášky: Jakými metodami se tyto data získávají. V jaké formě se lze s těmito daty setkat. Kde jsou data uložena. Jak je zpracovávat. protein aminokyselinové sekvence prostorové uspořádání proteinů

Sekvenování DNA Sangerova metoda - manuálně (gely) - automatické sekvenování (sekvenátory), 500 – 700 bp/run Sekvenovací technologie nové generace - 454, Solexa, Solid … - paralelní sekvenování miliónů sekvencí - celkem 100 – 3000 Mb/run - jednotlivé sekvence dlouhé 20 – 400 bp sekvenační gel pyrogram chromatogram

454 sekvenování

Sekvenování DNA T G T T R A C T IUPAC kódy pro nukleové kyseliny A Adenine C Cytosine G Guanine T Thymine U Uracil R Purine (A or G) Y Pyrimidine (C, T, or U) M C or A K T, U, or G W T, U, or A S C or G B C, T, U, or G (not A) D A, T, U, or G (not C) H A, T, U, or C (not G) V A, C, or G (not T, not U) N Any base (A, C, G, T, or U) T G T T R A C T

Sekvenování proteinů Enzymaticky - Edmanovo odbourávání Aminokyselinové zkratky Alanine Ala A Arginine Arg R Asparagine Asn N Kyselina asparagová Asp D Cysteine Cys C Glutamine Gln Q Kyselina glutamová Glu E Glycine Gly G Histidine His H Isoleucine Ile I Leucine Leu L Lysine Lys K Methionine Met M Phenylalanine Phe F Proline Pro P Serine Ser S Threonine Thr T Tryptophan Trp W Tyrosine Tyr Y Valine Val V Asparagine nebo kyselina asparagová Asx B Glutamine nebo kyselina glutamová Glx Z Enzymaticky - Edmanovo odbourávání Hmotnostní spektrometrie přes sekvenování DNA či RNA Hmotnostní spetrometr MALDI TOF

Formáty sekvencí text FASTA CTTAATAACTAATACTATAACATTGGGGCTGGTGAGATGGCTCAGTGGGT AAGAGCACCCGACTGCTCTTCCGAAGGTCCAGAGTTCAAATCCCAGCAAC CACATGGTGGCTCACAACCATCCGCAACATTTTTTTTACTGCCCCCCCCC CACTGTCTGAAGACAGTTACAGTGTACTTACATATATTAATAAAATAAAT CATAAAAAAAATACTGTAA FASTA první řádek začíná znakem „>“, za kterým pokračuje popis sekvence >MSMg01-272P04.TJ:226-445 chr1:191356652-191356652 CTTAATAACTAATACTATAACATTGGGGCTGGTGAGATGGCTCAGTGGGT AAGAGCACCCGACTGCTCTTCCGAAGGTCCAGAGTTCAAATCCCAGCAAC CACATGGTGGCTCACAACCATCCGCAACATTTTTTTTACTGCCCCCCCCC CACTGTCTGAAGACAGTTACAGTGTACTTACATATATTAATAAAATAAAT CATAAAAAAAATACTGTAA

Formáty sekvencí PHILIP počet sekvencí délka sekvencí

Formáty sekvencí CLUSTALW2 file začíní slovem „CLUSTAL“ počet aminokyselin/nukleotidů jméno sekvence * identická sekvence : konzervovaná substituce . semi-konzervovaná substituce

Formáty sekvencí GeneBank

Genová exprese GLOBÁLNÍ ANALÝZA GENOVÉ EXPRESE stanovení exprese velkého množství genů najednou, v ideálním případě všech genů technologie založené na sekvenování transkriptů EST (Expressed Sequence Tags) SAGE (Serial Analysis of Gene Expression) sekvenovací technologie nové generace (např. Solexa) technologie založené na mRNA hybridizaci DNA čipy (microarrays)

ESTs (Expressed Sequence Tags) 1. Izolace mRNA 4. Sekvenování AAAA AAAA AAAA Expressed sequence Tags „single-pass“ sekvence z 3´ nebo 5´ konce mRNA (cca 500 nukleotidů) 2. Syntéza cDNA AAAA TTTT EST knihovna AAAA TTTT ne příliš kvalitní data málo osekvenovaných mRNA, zachytí jen početné transkripty častá normalizace EST knihoven, poskytuje jen kvalitativní informace o genové expresi zachytí i expresi neznámých genů 3. Zaklonování do vektoru cDNA knihovna

SAGE (Serial Analysis of Gene Expression) princip z každé molekuly mRNA se v přesně definované pozici vystřihne 14 – 21 bp úsek (= tag) spojení tagů do dlouhých úseků, v nichž jsou jednotlivé tagy odděleny mezerníky. Spojené sekvence se sekvenují sekvence tagu slouží pro identifikaci počet jednotlivých tagů poskytuje kvantitativní informaci o genové expresi kvalitní data kvantitativní informace o genové expresi zachytí i méně početné transkripty zachytí i expresi neznámých genů lze porovnávat data vytvořená v různých laboratořích

Nové technologie sekvenování Velmi rychlé a relativně levné sekvenování - cDNA knihovy - SAGE knihovny Umožní zachytit i velmi vzácné transkripty Nové technologie, nástroje pro analýzu se vyvíjejí

červený/zelený signál Příprava fluorescenčně značené sondy DNA čipy (microarrays) dvoukanálové čipy Měření fluorescence červený/zelený signál Izolace RNA Kontrola Vzorek Hybridizace Příprava fluorescenčně značené sondy Próby: - syntetizované oligonukleotidy - cDNA

Příprava fluorescenčně značené sondy DNA čipy (microarrays) jednokanálové čipy (např. Affymetrix GeneChips) Skenování Izolace RNA Hybridizace Kontrola Analýza dat Vzorek Příprava fluorescenčně značené sondy velmi rychlá metoda kvalitní data kvantitativní informace o expresi zachytí jen expresi známých genů, jejichž sekvence je přítomná na čipu data z jednokanálových čipů lze porovnávat mezi laboratořemi

GeneChip 640 Hybridization Oven GeneChip 450 Fluidics Station GeneChip 3000 7G Scanner Affymetrix GeneChip

Affymetrix GenChips využívá 25bp dlouhé próby každý gen reprezentován 11 - 20 próbami, které dohromady tvoří probeset Na jednom čipu může být až několik desítek tisíc prób RNA próba probeset

Affymetrix GenChips 2 typy prób referenční sekvence TAGGTCTGTATGACAGACACAAAGAAGATG CAGACATAGTGTCTGTGTTTCTTCT CAGACATAGTGTGTGTGTTTCTTCT PM: the Perfect Match MM: the Mismatch

Rozmístění prób na čipu Affymetrix GenChips Rozmístění prób na čipu Chip description file (cdf) – popisuje polohu jednotlivých prób na čipu a jejich příslušnost k probesetům.

Affymetrix GenChips Analýza obrazu .DAT file .CEL file Generován automaticky pomocí programu GCOS (Affymetrix)

Získání expresních dat Affymetrix GenChips Získání expresních dat Převedení intenzity fluorescence do číselných hodnot genové exprese - Background adjustment - Scaling - Summarization Algoritmus: MAS5 (Affymetrix) RMA/GSRMA Background adjustment: Corrects for background noise, processing effects, adjusts for cross hybridization, adjust estimated expression values to fall on proper scale Scaling or normalization: Is a process of reducing unwanted variation across chips. It may use information from multiple chips. Summarization: Reduce the 11-20 probe intensities for each probeset on to a gene expression value .CHP file

Databáze Relační databáze křížení genotypy markery relační schéma myš vrh matka otec myš lokus_A lokus_B lokus_C markery marker chromosom pozice relační schéma SQL (Structured Query Language) SELECT myš FROM křížení LEFTJOIN ON genotypy USING myš WHERE lokus_A = ‘X’ and matka = ‘Y’

Primární databáze DNA sekvencí GeneBank (Amerika) EMBL (Evropa) DDBJ (Japonsko) Obsahují více než 100 gigabází z více než 165 000 organismů Totožný obsah Redundantní Nemoderované

Specializované databáze Databáze genů RefSeq, Entrez Gene Cílem poskytnout kompletní, neredundantní soubor genů a jejich sekvencí. Přiřadit k sobě sekvence DNA, mRNA a proteinů. Dát jim jednotné a stabilní identifikátory. Shromažďují biologické informace o jednotlivých genech, jejich produktech. Jen ověřená data. Databáze genových expresních dat dbEST. Databáze EST (Expressed Sequence Tags). UniGene. Sekvence mRNA a EST jsou zde uspořádány do neredundantních „klastrů“. Každý z nich představuje unikátní trankript GEO. Obsahuje expresní data získaná pomocí DNA čipů, SAGE a jijných metod. Databáze proteinů UniProt. Nejobsáhlejší katalog informací o proteinech a centrální úložiště proteinových sekvencí a informací o funkci proteinů. Vznikla sloučením databází Swiss-Prot a TrEMBL. PDB. Obsahuje trojrozměrné struktury proteinů.

Specializované databáze Gene Ontology Smyslem vytvořit jednotnou terminologii pro popis funkce genových produktů. Termíny jsou hierarchicky uspořádané od obecnějších funkcí po specializované funkce Termíny vycházejí ze tří kategorií 1. lokalizace v buňce (mitochondrie, jádro, endoplazmatické retikulum, ribozom…) 2. biologická funkce (signální transdukce, pyrimidinový metabolismus…) 3. molekulární funce (katalytická aktivia, vazebná funkce, adenylát cyklázová aktivita) Vyhledávání lze omezit i na určité druhy či taxony

Databáze genomů Ensembl NCBI UCSC Genome Browser Vycházejí ze stejné DNA sekvence (assembly), ale přidávají k ní vlastní anotace a predikce genů. Liší se možnostmi prohledávání a exportu dat.

Porovnávání sekvencí a určování míry jejich podobnosti Pairwise alignment Multiple alignment Globální vs. Lokální alignment

Alignment Substituční matice teoreticky odvozené empiricky odvozené 1 teoreticky odvozené empiricky odvozené PAM: založené na alignmentech blízce příbuzných proteinů. PAM1 matice stanovena z alignmentů sekvencí s ne větší než 1% divergencí. Ostatní PAM matice odvozené od PAM1. Hodí se na porovnávání blízce příbuzných proteinů. nejjednodušší substituční matice pro nukleotidové sekvence BLOSUM: vycházejí z většího množství více rozmanitých proteinů. Všechny BLOSUM matice stanovené z reálných alignmentů. BLOSUM 62 stanovená z alignmenů sekvencí s ne větší než 62% identitou. Default matice. BLOSUM 80 BLOSUM 62 BLOSUM 45 PAM 1 PAM 120 PAM 250 více podobné sekvence méně podobné sekvence

Alignment cena mezer (gap penalty) neexistují žádné teorie pro odvození ceny mezer cena za otevření mezery (a) – větší než jakákoli substituce (a = -10 pro BLOSUM 62) cena za prodloužení mezery (b) – jakmile jednou mezera vznikne, její prodloužení je snadné (b = -1 pro BLOSUM 62)

Alignment Výhody porovnání aminokyselinových sekvencí ve srovnání s nukleotidovými sekvencemi Existuje 20 různých aminokyselin, ale jen 4 různé nukleotidy. Proto lze vypočítat statistiku i pro mnohem kratší alignmenty aminokyselin. Při porovnávání AK sekvencí se bere v potaz pravděpodobnost substitucí různých aminokyselin. Degenerovaný genetický kód. Zhruba 1/3 nukleotidových substitucí nezpůsobuje záměnu AK, nejsou pod selekčním tlakem. Vytvářejí šum. Proto i když chceme udělat alignment kódujících DNA sekvencí, je lepší ho udělat na úrovni aminokyselin a ty pak nahradit příslušnými nukleotidy.

Prohledávání databází podle podobnosti sekvencí PROHLEDÁVACÍ ALGORITMY: SSEARCH: vytváří alignmenty zadané sekvence (query) s každou sekvencí v databázi. Výpočetně velmi náročné. heuristické metody: předem vyloučí sekvence, které jsou zadávané sekvenci nepříbuzné. Hledání krátkých společných motivů („slov“), alignmenty se vytváří jen s těmi sekvencemi, které mají alespoň jedno společné „slovo“. FASTA: na EBI serveru http://www2.ebi.ac.uk/fasta33 BLAST: na stránkách NCBI http://www.ncbi.nlm.nih.gov/BLAST rychlejší než FASTA BLAT: na stránkách UCSC http://genome.ucsc.edu/cgi-bin/hgBlat velmi rychlý, pro vyhledávání vysoce homologních sekvencí

BLAST volba metody: Databáze Query sekvence DNA Protein BLASTN BLASTX TBLASTN BLASTP PSI-BLAST TBLASTN: hledá sekvenci proteinů v databázi obsahující atomatické překlady nukleotidových databází ve všech 6 čtecích rámcích. BLASTX: přeloží sekvenci ve všech 6 čtecích rámcích a vzniklými sekvencemi prohledává databáze proteinů. PSI-BLAST: využívá pozičně specifické substituční matice (PSSM), berou v potaz také sekvenční kontext, ve kterém došlo k substituci. Hodí se pro porovnávání vzdálenějších sekvencí.

BLAST statistická významnost: E value (Expectation value) P = 1 – e –E na rozdíl od P-value mohou být hodnoty E-value přesahovat 1 (lépe se porovnávají). Pro E < 0.01, P-value a E-value jsou téměř identické. Hodnoty E-value závisí také na velikosti databází, které prohledáváme! Zmenšením velikosti prohledávaných databází se E-value zvyšuje. Proto vždy nutno uvést kromě E-value také prohledávané databáze a jejich verzi.

BLAST volba parametrů: Výběr databáze. Omezení prohledávání jen na sekvence z určitých druhů či taxonů E-value. Default hodnota je 10. Snížíme pokud chceme omezit výstup nebo zvýšíme pokud chceme naléz i sekvence s velmi malou podobností. Délka „slova“. Pro aminokyseliny default 3. Zkrácením velikosti slova na 2 se zvýší citlivost, ale velmi se zpomalí prohledávání. Pro nukleové kyseliny default 11. Substituční matice. Default BLOSOM 62. Funguje přes široké spektrum evolučních vzdáleností. Pokud hledáme i velmi vzdálené sekvence, můžeme použít BLOSOM 45. Naopak pro velmi podobné sekvence můžeme použít BLOSOM 80, PAM 30 či PAM 70. Každá substituční matici přísluší jiné hodnoty ceny mezer.

Multiple alignment Porovnání několika proteinových či nukleotidových sekvencí za účelem vyhledávání evolučně konzervovaných domén, vytvoření evolučního stromu či jiných evolučních analýz.

Multiple alignment ClustalW princip: možné problémy: vygeneruje alignmenty každých dvou sekvencí spočítá jejich evoluční vzdálenost pro nejbližší dvojici spočítá alignment a k tomu postupně přikládá vzdálenější sekvence možné problémy: používá globální alignment, musíme mít stejně dlouhé sekvence není možné později opravit chyby vzniklé alignmentem nehomologních částí