Bioinformatika Radka Storchová
rozšiřující přednášky Fatima Cvrčková: Úvod do bioinformatiky Jan Pačes a Jiří Vondrášek: Bioinformatika doporučená literatura Fatima Cvrčková: Úvod do praktické bioinformatiky, Academia 2006 přednášky a konference společnosti FOBIA Czech Free & Open Bioinformatic Association http://fobia.img.cas.cz/
Bioinformatická data DNA RNA protein nukleotidové sekvence genová exprese RNA Náplň přednášky: Jakými metodami se tyto data získávají. V jaké formě se lze s těmito daty setkat. Kde jsou data uložena. Jak je zpracovávat. protein aminokyselinové sekvence prostorové uspořádání proteinů
Sekvenování DNA Sangerova metoda - manuálně (gely) - automatické sekvenování (sekvenátory), 500 – 700 bp/run Sekvenovací technologie nové generace - 454, Solexa, Solid … - paralelní sekvenování miliónů sekvencí - celkem 100 – 3000 Mb/run - jednotlivé sekvence dlouhé 20 – 400 bp sekvenační gel pyrogram chromatogram
454 sekvenování
Sekvenování DNA T G T T R A C T IUPAC kódy pro nukleové kyseliny A Adenine C Cytosine G Guanine T Thymine U Uracil R Purine (A or G) Y Pyrimidine (C, T, or U) M C or A K T, U, or G W T, U, or A S C or G B C, T, U, or G (not A) D A, T, U, or G (not C) H A, T, U, or C (not G) V A, C, or G (not T, not U) N Any base (A, C, G, T, or U) T G T T R A C T
Sekvenování proteinů Enzymaticky - Edmanovo odbourávání Aminokyselinové zkratky Alanine Ala A Arginine Arg R Asparagine Asn N Kyselina asparagová Asp D Cysteine Cys C Glutamine Gln Q Kyselina glutamová Glu E Glycine Gly G Histidine His H Isoleucine Ile I Leucine Leu L Lysine Lys K Methionine Met M Phenylalanine Phe F Proline Pro P Serine Ser S Threonine Thr T Tryptophan Trp W Tyrosine Tyr Y Valine Val V Asparagine nebo kyselina asparagová Asx B Glutamine nebo kyselina glutamová Glx Z Enzymaticky - Edmanovo odbourávání Hmotnostní spektrometrie přes sekvenování DNA či RNA Hmotnostní spetrometr MALDI TOF
Formáty sekvencí text FASTA CTTAATAACTAATACTATAACATTGGGGCTGGTGAGATGGCTCAGTGGGT AAGAGCACCCGACTGCTCTTCCGAAGGTCCAGAGTTCAAATCCCAGCAAC CACATGGTGGCTCACAACCATCCGCAACATTTTTTTTACTGCCCCCCCCC CACTGTCTGAAGACAGTTACAGTGTACTTACATATATTAATAAAATAAAT CATAAAAAAAATACTGTAA FASTA první řádek začíná znakem „>“, za kterým pokračuje popis sekvence >MSMg01-272P04.TJ:226-445 chr1:191356652-191356652 CTTAATAACTAATACTATAACATTGGGGCTGGTGAGATGGCTCAGTGGGT AAGAGCACCCGACTGCTCTTCCGAAGGTCCAGAGTTCAAATCCCAGCAAC CACATGGTGGCTCACAACCATCCGCAACATTTTTTTTACTGCCCCCCCCC CACTGTCTGAAGACAGTTACAGTGTACTTACATATATTAATAAAATAAAT CATAAAAAAAATACTGTAA
Formáty sekvencí PHILIP počet sekvencí délka sekvencí
Formáty sekvencí CLUSTALW2 file začíní slovem „CLUSTAL“ počet aminokyselin/nukleotidů jméno sekvence * identická sekvence : konzervovaná substituce . semi-konzervovaná substituce
Formáty sekvencí GeneBank
Genová exprese GLOBÁLNÍ ANALÝZA GENOVÉ EXPRESE stanovení exprese velkého množství genů najednou, v ideálním případě všech genů technologie založené na sekvenování transkriptů EST (Expressed Sequence Tags) SAGE (Serial Analysis of Gene Expression) sekvenovací technologie nové generace (např. Solexa) technologie založené na mRNA hybridizaci DNA čipy (microarrays)
ESTs (Expressed Sequence Tags) 1. Izolace mRNA 4. Sekvenování AAAA AAAA AAAA Expressed sequence Tags „single-pass“ sekvence z 3´ nebo 5´ konce mRNA (cca 500 nukleotidů) 2. Syntéza cDNA AAAA TTTT EST knihovna AAAA TTTT ne příliš kvalitní data málo osekvenovaných mRNA, zachytí jen početné transkripty častá normalizace EST knihoven, poskytuje jen kvalitativní informace o genové expresi zachytí i expresi neznámých genů 3. Zaklonování do vektoru cDNA knihovna
SAGE (Serial Analysis of Gene Expression) princip z každé molekuly mRNA se v přesně definované pozici vystřihne 14 – 21 bp úsek (= tag) spojení tagů do dlouhých úseků, v nichž jsou jednotlivé tagy odděleny mezerníky. Spojené sekvence se sekvenují sekvence tagu slouží pro identifikaci počet jednotlivých tagů poskytuje kvantitativní informaci o genové expresi kvalitní data kvantitativní informace o genové expresi zachytí i méně početné transkripty zachytí i expresi neznámých genů lze porovnávat data vytvořená v různých laboratořích
Nové technologie sekvenování Velmi rychlé a relativně levné sekvenování - cDNA knihovy - SAGE knihovny Umožní zachytit i velmi vzácné transkripty Nové technologie, nástroje pro analýzu se vyvíjejí
červený/zelený signál Příprava fluorescenčně značené sondy DNA čipy (microarrays) dvoukanálové čipy Měření fluorescence červený/zelený signál Izolace RNA Kontrola Vzorek Hybridizace Příprava fluorescenčně značené sondy Próby: - syntetizované oligonukleotidy - cDNA
Příprava fluorescenčně značené sondy DNA čipy (microarrays) jednokanálové čipy (např. Affymetrix GeneChips) Skenování Izolace RNA Hybridizace Kontrola Analýza dat Vzorek Příprava fluorescenčně značené sondy velmi rychlá metoda kvalitní data kvantitativní informace o expresi zachytí jen expresi známých genů, jejichž sekvence je přítomná na čipu data z jednokanálových čipů lze porovnávat mezi laboratořemi
GeneChip 640 Hybridization Oven GeneChip 450 Fluidics Station GeneChip 3000 7G Scanner Affymetrix GeneChip
Affymetrix GenChips využívá 25bp dlouhé próby každý gen reprezentován 11 - 20 próbami, které dohromady tvoří probeset Na jednom čipu může být až několik desítek tisíc prób RNA próba probeset
Affymetrix GenChips 2 typy prób referenční sekvence TAGGTCTGTATGACAGACACAAAGAAGATG CAGACATAGTGTCTGTGTTTCTTCT CAGACATAGTGTGTGTGTTTCTTCT PM: the Perfect Match MM: the Mismatch
Rozmístění prób na čipu Affymetrix GenChips Rozmístění prób na čipu Chip description file (cdf) – popisuje polohu jednotlivých prób na čipu a jejich příslušnost k probesetům.
Affymetrix GenChips Analýza obrazu .DAT file .CEL file Generován automaticky pomocí programu GCOS (Affymetrix)
Získání expresních dat Affymetrix GenChips Získání expresních dat Převedení intenzity fluorescence do číselných hodnot genové exprese - Background adjustment - Scaling - Summarization Algoritmus: MAS5 (Affymetrix) RMA/GSRMA Background adjustment: Corrects for background noise, processing effects, adjusts for cross hybridization, adjust estimated expression values to fall on proper scale Scaling or normalization: Is a process of reducing unwanted variation across chips. It may use information from multiple chips. Summarization: Reduce the 11-20 probe intensities for each probeset on to a gene expression value .CHP file
Databáze Relační databáze křížení genotypy markery relační schéma myš vrh matka otec myš lokus_A lokus_B lokus_C markery marker chromosom pozice relační schéma SQL (Structured Query Language) SELECT myš FROM křížení LEFTJOIN ON genotypy USING myš WHERE lokus_A = ‘X’ and matka = ‘Y’
Primární databáze DNA sekvencí GeneBank (Amerika) EMBL (Evropa) DDBJ (Japonsko) Obsahují více než 100 gigabází z více než 165 000 organismů Totožný obsah Redundantní Nemoderované
Specializované databáze Databáze genů RefSeq, Entrez Gene Cílem poskytnout kompletní, neredundantní soubor genů a jejich sekvencí. Přiřadit k sobě sekvence DNA, mRNA a proteinů. Dát jim jednotné a stabilní identifikátory. Shromažďují biologické informace o jednotlivých genech, jejich produktech. Jen ověřená data. Databáze genových expresních dat dbEST. Databáze EST (Expressed Sequence Tags). UniGene. Sekvence mRNA a EST jsou zde uspořádány do neredundantních „klastrů“. Každý z nich představuje unikátní trankript GEO. Obsahuje expresní data získaná pomocí DNA čipů, SAGE a jijných metod. Databáze proteinů UniProt. Nejobsáhlejší katalog informací o proteinech a centrální úložiště proteinových sekvencí a informací o funkci proteinů. Vznikla sloučením databází Swiss-Prot a TrEMBL. PDB. Obsahuje trojrozměrné struktury proteinů.
Specializované databáze Gene Ontology Smyslem vytvořit jednotnou terminologii pro popis funkce genových produktů. Termíny jsou hierarchicky uspořádané od obecnějších funkcí po specializované funkce Termíny vycházejí ze tří kategorií 1. lokalizace v buňce (mitochondrie, jádro, endoplazmatické retikulum, ribozom…) 2. biologická funkce (signální transdukce, pyrimidinový metabolismus…) 3. molekulární funce (katalytická aktivia, vazebná funkce, adenylát cyklázová aktivita) Vyhledávání lze omezit i na určité druhy či taxony
Databáze genomů Ensembl NCBI UCSC Genome Browser Vycházejí ze stejné DNA sekvence (assembly), ale přidávají k ní vlastní anotace a predikce genů. Liší se možnostmi prohledávání a exportu dat.
Porovnávání sekvencí a určování míry jejich podobnosti Pairwise alignment Multiple alignment Globální vs. Lokální alignment
Alignment Substituční matice teoreticky odvozené empiricky odvozené 1 teoreticky odvozené empiricky odvozené PAM: založené na alignmentech blízce příbuzných proteinů. PAM1 matice stanovena z alignmentů sekvencí s ne větší než 1% divergencí. Ostatní PAM matice odvozené od PAM1. Hodí se na porovnávání blízce příbuzných proteinů. nejjednodušší substituční matice pro nukleotidové sekvence BLOSUM: vycházejí z většího množství více rozmanitých proteinů. Všechny BLOSUM matice stanovené z reálných alignmentů. BLOSUM 62 stanovená z alignmenů sekvencí s ne větší než 62% identitou. Default matice. BLOSUM 80 BLOSUM 62 BLOSUM 45 PAM 1 PAM 120 PAM 250 více podobné sekvence méně podobné sekvence
Alignment cena mezer (gap penalty) neexistují žádné teorie pro odvození ceny mezer cena za otevření mezery (a) – větší než jakákoli substituce (a = -10 pro BLOSUM 62) cena za prodloužení mezery (b) – jakmile jednou mezera vznikne, její prodloužení je snadné (b = -1 pro BLOSUM 62)
Alignment Výhody porovnání aminokyselinových sekvencí ve srovnání s nukleotidovými sekvencemi Existuje 20 různých aminokyselin, ale jen 4 různé nukleotidy. Proto lze vypočítat statistiku i pro mnohem kratší alignmenty aminokyselin. Při porovnávání AK sekvencí se bere v potaz pravděpodobnost substitucí různých aminokyselin. Degenerovaný genetický kód. Zhruba 1/3 nukleotidových substitucí nezpůsobuje záměnu AK, nejsou pod selekčním tlakem. Vytvářejí šum. Proto i když chceme udělat alignment kódujících DNA sekvencí, je lepší ho udělat na úrovni aminokyselin a ty pak nahradit příslušnými nukleotidy.
Prohledávání databází podle podobnosti sekvencí PROHLEDÁVACÍ ALGORITMY: SSEARCH: vytváří alignmenty zadané sekvence (query) s každou sekvencí v databázi. Výpočetně velmi náročné. heuristické metody: předem vyloučí sekvence, které jsou zadávané sekvenci nepříbuzné. Hledání krátkých společných motivů („slov“), alignmenty se vytváří jen s těmi sekvencemi, které mají alespoň jedno společné „slovo“. FASTA: na EBI serveru http://www2.ebi.ac.uk/fasta33 BLAST: na stránkách NCBI http://www.ncbi.nlm.nih.gov/BLAST rychlejší než FASTA BLAT: na stránkách UCSC http://genome.ucsc.edu/cgi-bin/hgBlat velmi rychlý, pro vyhledávání vysoce homologních sekvencí
BLAST volba metody: Databáze Query sekvence DNA Protein BLASTN BLASTX TBLASTN BLASTP PSI-BLAST TBLASTN: hledá sekvenci proteinů v databázi obsahující atomatické překlady nukleotidových databází ve všech 6 čtecích rámcích. BLASTX: přeloží sekvenci ve všech 6 čtecích rámcích a vzniklými sekvencemi prohledává databáze proteinů. PSI-BLAST: využívá pozičně specifické substituční matice (PSSM), berou v potaz také sekvenční kontext, ve kterém došlo k substituci. Hodí se pro porovnávání vzdálenějších sekvencí.
BLAST statistická významnost: E value (Expectation value) P = 1 – e –E na rozdíl od P-value mohou být hodnoty E-value přesahovat 1 (lépe se porovnávají). Pro E < 0.01, P-value a E-value jsou téměř identické. Hodnoty E-value závisí také na velikosti databází, které prohledáváme! Zmenšením velikosti prohledávaných databází se E-value zvyšuje. Proto vždy nutno uvést kromě E-value také prohledávané databáze a jejich verzi.
BLAST volba parametrů: Výběr databáze. Omezení prohledávání jen na sekvence z určitých druhů či taxonů E-value. Default hodnota je 10. Snížíme pokud chceme omezit výstup nebo zvýšíme pokud chceme naléz i sekvence s velmi malou podobností. Délka „slova“. Pro aminokyseliny default 3. Zkrácením velikosti slova na 2 se zvýší citlivost, ale velmi se zpomalí prohledávání. Pro nukleové kyseliny default 11. Substituční matice. Default BLOSOM 62. Funguje přes široké spektrum evolučních vzdáleností. Pokud hledáme i velmi vzdálené sekvence, můžeme použít BLOSOM 45. Naopak pro velmi podobné sekvence můžeme použít BLOSOM 80, PAM 30 či PAM 70. Každá substituční matici přísluší jiné hodnoty ceny mezer.
Multiple alignment Porovnání několika proteinových či nukleotidových sekvencí za účelem vyhledávání evolučně konzervovaných domén, vytvoření evolučního stromu či jiných evolučních analýz.
Multiple alignment ClustalW princip: možné problémy: vygeneruje alignmenty každých dvou sekvencí spočítá jejich evoluční vzdálenost pro nejbližší dvojici spočítá alignment a k tomu postupně přikládá vzdálenější sekvence možné problémy: používá globální alignment, musíme mít stejně dlouhé sekvence není možné později opravit chyby vzniklé alignmentem nehomologních částí