Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Bioinformatika Radka Storchová. rozšiřující přednášky Fatima Cvrčková: Úvod do bioinformatiky Jan Pačes a Jiří Vondrášek: Bioinformatika doporučená literatura.

Podobné prezentace


Prezentace na téma: "Bioinformatika Radka Storchová. rozšiřující přednášky Fatima Cvrčková: Úvod do bioinformatiky Jan Pačes a Jiří Vondrášek: Bioinformatika doporučená literatura."— Transkript prezentace:

1 Bioinformatika Radka Storchová

2 rozšiřující přednášky Fatima Cvrčková: Úvod do bioinformatiky Jan Pačes a Jiří Vondrášek: Bioinformatika doporučená literatura Fatima Cvrčková: Úvod do praktické bioinformatiky, Academia 2006 přednášky a konference společnosti FOBIA Czech Free & Open Bioinformatic Association

3 DNA RNA protein Bioinformatická data nukleotidové sekvence genová exprese aminokyselinové sekvence prostorové uspořádání proteinů

4 Sangerova metoda - manuálně (gely) - automatické sekvenování (sekvenátory), 500 – 700 bp/run Sekvenovací technologie nové generace - 454, Solexa, Solid … - paralelní sekvenování miliónů sekvencí - celkem 100 – 3000 Mb/run - jednotlivé sekvence dlouhé 20 – 400 bp Sekvenování DNA pyrogramchromatogram sekvenační gel

5 454 sekvenování

6 Sekvenování DNA IUPAC kódy pro nukleové kyseliny AAdenine CCytosine GGuanine TThymine UUracil RPurine (A or G) YPyrimidine (C, T, or U) MC or A KT, U, or G WT, U, or A SC or G BC, T, U, or G (not A) DA, T, U, or G (not C) HA, T, U, or C (not G) VA, C, or G (not T, not U) NAny base (A, C, G, T, or U) T G T T R A C T

7 Enzymaticky - Edmanovo odbourávání Hmotnostní spektrometrie přes sekvenování DNA či RNA AlanineAlaA ArginineArgR AsparagineAsnN Kyselina asparagováAspD CysteineCysC GlutamineGlnQ Kyselina glutamováGluE GlycineGlyG HistidineHisH IsoleucineIleI LeucineLeuL LysineLysK MethionineMetM PhenylalaninePheF ProlineProP SerineSerS ThreonineThrT TryptophanTrpW TyrosineTyrY ValineValV Asparagine nebo kyselina asparagová AsxB Glutamine nebo kyselina glutamová GlxZ Sekvenování proteinů Aminokyselinové zkratky Hmotnostní spetrometr MALDI TOF

8 Formáty sekvencí text CTTAATAACTAATACTATAACATTGGGGCTGGTGAGATGGCTCAGTGGGT AAGAGCACCCGACTGCTCTTCCGAAGGTCCAGAGTTCAAATCCCAGCAAC CACATGGTGGCTCACAACCATCCGCAACATTTTTTTTACTGCCCCCCCCC CACTGTCTGAAGACAGTTACAGTGTACTTACATATATTAATAAAATAAAT CATAAAAAAAATACTGTAA FASTA >MSMg01-272P04.TJ: chr1: CTTAATAACTAATACTATAACATTGGGGCTGGTGAGATGGCTCAGTGGGT AAGAGCACCCGACTGCTCTTCCGAAGGTCCAGAGTTCAAATCCCAGCAAC CACATGGTGGCTCACAACCATCCGCAACATTTTTTTTACTGCCCCCCCCC CACTGTCTGAAGACAGTTACAGTGTACTTACATATATTAATAAAATAAAT CATAAAAAAAATACTGTAA první řádek začíná znakem „>“, za kterým pokračuje popis sekvence

9 PHILIP počet sekvencí délka sekvencí Formáty sekvencí

10 počet aminokyselin/nukleotidů jméno sekvence * identická sekvence : konzervovaná substituce. semi-konzervovaná substituce CLUSTALW2 Formáty sekvencí file začíní slovem „CLUSTAL“

11 GeneBank Formáty sekvencí

12 GLOBÁLNÍ ANALÝZA GENOVÉ EXPRESE stanovení exprese velkého množství genů najednou, v ideálním případě všech genů technologie založené na sekvenování transkriptů EST (Expressed Sequence Tags) SAGE (Serial Analysis of Gene Expression) sekvenovací technologie nové generace (např. Solexa) technologie založené na mRNA hybridizaci DNA čipy (microarrays) Genová exprese

13 ESTs (Expressed Sequence Tags) AAAA 1. Izolace mRNA 2. Syntéza cDNA AAAA TTTT AAAA TTTT 3. Zaklonování do vektoru 4. Sekvenování cDNA knihovna Expressed sequence Tags „single-pass“ sekvence z 3´ nebo 5´ konce mRNA (cca 500 nukleotidů) EST knihovna ne příliš kvalitní data málo osekvenovaných mRNA, zachytí jen početné transkripty častá normalizace EST knihoven, poskytuje jen kvalitativní informace o genové expresi zachytí i expresi neznámých genů

14 z každé molekuly mRNA se v přesně definované pozici vystřihne 14 – 21 bp úsek (= tag) spojení tagů do dlouhých úseků, v nichž jsou jednotlivé tagy odděleny mezerníky. Spojené sekvence se sekvenují sekvence tagu slouží pro identifikaci počet jednotlivých tagů poskytuje kvantitativní informaci o genové expresi SAGE (Serial Analysis of Gene Expression) princip kvalitní data kvantitativní informace o genové expresi zachytí i méně početné transkripty zachytí i expresi neznámých genů lze porovnávat data vytvořená v různých laboratořích

15 Nové technologie sekvenování Velmi rychlé a relativně levné sekvenování - cDNA knihovy - SAGE knihovny Umožní zachytit i velmi vzácné transkripty Nové technologie, nástroje pro analýzu se vyvíjejí

16 Příprava fluorescenčně značené sondy Kontrola Vzorek Hybridizace Měření fluorescence červený/zelený signál Izolace RNA DNA čipy (microarrays) dvoukanálové čipy Próby: - syntetizované oligonukleotidy - cDNA

17 jednokanálové čipy (např. Affymetrix GeneChips) Příprava fluorescenčně značené sondy Kontrola Vzorek Izolace RNA Hybridizace DNA čipy (microarrays) Skenování Analýza dat velmi rychlá metoda kvalitní data kvantitativní informace o expresi zachytí jen expresi známých genů, jejichž sekvence je přítomná na čipu data z jednokanálových čipů lze porovnávat mezi laboratořemi

18 GeneChip 450 Fluidics StationGeneChip 640 Hybridization Oven GeneChip G Scanner Affymetrix GeneChip

19 Affymetrix GenChips využívá 25bp dlouhé próby každý gen reprezentován próbami, které dohromady tvoří probeset Na jednom čipu může být až několik desítek tisíc prób próba probeset RNA

20 TAGGTCTGTATGACAGACACAAAGAAGATG CAGACATAGTGT C TGTGTTTCTTCT CAGACATAGTGT G TGTGTTTCTTCT referenční sekvence PM: the Perfect Match MM: the Mismatch Affymetrix GenChips 2 typy prób

21 Affymetrix GenChips Rozmístění prób na čipu Chip description file (cdf) – popisuje polohu jednotlivých prób na čipu a jejich příslušnost k probesetům.

22 Affymetrix GenChips Analýza obrazu.DAT file.CEL file Generován automaticky pomocí programu GCOS (Affymetrix)

23 .CHP file Affymetrix GenChips - Background adjustment - Scaling - Summarization Algoritmus: MAS5 (Affymetrix) RMA/GSRMA Převedení intenzity fluorescence do číselných hodnot genové exprese Získání expresních dat

24 Relační databáze SQL (Structured Query Language) relační schéma SELECT myš FROM křížení LEFTJOIN ON genotypy USING myš WHERE lokus_A = ‘X’ and matka = ‘Y’ Databáze myš vrh matka otec myš lokus_A lokus_B lokus_C marker chromosom pozice křížení genotypy markery

25 GeneBank (Amerika) EMBL (Evropa) DDBJ (Japonsko) Obsahují více než 100 gigabází z více než organismů Totožný obsah Redundantní Nemoderované Primární databáze DNA sekvencí

26 Specializované databáze Databáze genů RefSeq, Entrez Gene Cílem poskytnout kompletní, neredundantní soubor genů a jejich sekvencí. Přiřadit k sobě sekvence DNA, mRNA a proteinů. Dát jim jednotné a stabilní identifikátory. Shromažďují biologické informace o jednotlivých genech, jejich produktech. Jen ověřená data. Databáze genových expresních dat dbEST. Databáze EST (Expressed Sequence Tags). UniGene. Sekvence mRNA a EST jsou zde uspořádány do neredundantních „klastrů“. Každý z nich představuje unikátní trankript GEO. Obsahuje expresní data získaná pomocí DNA čipů, SAGE a jijných metod. Databáze proteinů UniProt. Nejobsáhlejší katalog informací o proteinech a centrální úložiště proteinových sekvencí a informací o funkci proteinů. Vznikla sloučením databází Swiss-Prot a TrEMBL. PDB. Obsahuje trojrozměrné struktury proteinů.

27 Specializované databáze Gene Ontology Smyslem vytvořit jednotnou terminologii pro popis funkce genových produktů. Termíny jsou hierarchicky uspořádané od obecnějších funkcí po specializované funkce Termíny vycházejí ze tří kategorií 1. lokalizace v buňce (mitochondrie, jádro, endoplazmatické retikulum, ribozom…) 2. biologická funkce (signální transdukce, pyrimidinový metabolismus…) 3. molekulární funce (katalytická aktivia, vazebná funkce, adenylát cyklázová aktivita) Vyhledávání lze omezit i na určité druhy či taxony

28 Databáze genomů Ensembl NCBI UCSC Genome Browser Vycházejí ze stejné DNA sekvence (assembly), ale přidávají k ní vlastní anotace a predikce genů. Liší se možnostmi prohledávání a exportu dat.

29 Porovnávání sekvencí a určování míry jejich podobnosti Globální vs. Lokální alignment Multiple alignment Pairwise alignment

30 Substituční matice teoreticky odvozené empiricky odvozené PAM: založené na alignmentech blízce příbuzných proteinů. PAM1 matice stanovena z alignmentů sekvencí s ne větší než 1% divergencí. Ostatní PAM matice odvozené od PAM1. Hodí se na porovnávání blízce příbuzných proteinů. BLOSUM: vycházejí z většího množství více rozmanitých proteinů. Všechny BLOSUM matice stanovené z reálných alignmentů. BLOSUM 62 stanovená z alignmenů sekvencí s ne větší než 62% identitou. Default matice. Alignment ATGC A1000 T0100 G0010 C0001 nejjednodušší substituční matice pro nukleotidové sekvence BLOSUM 80BLOSUM 62 BLOSUM 45 PAM 1PAM 120 PAM 250 více podobné sekvence méně podobné sekvence

31 Alignment cena mezer (gap penalty) neexistují žádné teorie pro odvození ceny mezer cena za otevření mezery (a) – větší než jakákoli substituce (a = -10 pro BLOSUM 62) cena za prodloužení mezery (b) – jakmile jednou mezera vznikne, její prodloužení je snadné (b = -1 pro BLOSUM 62)

32 Výhody porovnání aminokyselinových sekvencí ve srovnání s nukleotidovými sekvencemi Alignment Existuje 20 různých aminokyselin, ale jen 4 různé nukleotidy. Proto lze vypočítat statistiku i pro mnohem kratší alignmenty aminokyselin. Při porovnávání AK sekvencí se bere v potaz pravděpodobnost substitucí různých aminokyselin. Degenerovaný genetický kód. Zhruba 1/3 nukleotidových substitucí nezpůsobuje záměnu AK, nejsou pod selekčním tlakem. Vytvářejí šum. Proto i když chceme udělat alignment kódujících DNA sekvencí, je lepší ho udělat na úrovni aminokyselin a ty pak nahradit příslušnými nukleotidy.

33 PROHLEDÁVACÍ ALGORITMY: SSEARCH: vytváří alignmenty zadané sekvence (query) s každou sekvencí v databázi. Výpočetně velmi náročné. heuristické metody: předem vyloučí sekvence, které jsou zadávané sekvenci nepříbuzné. Hledání krátkých společných motivů („slov“), alignmenty se vytváří jen s těmi sekvencemi, které mají alespoň jedno společné „slovo“. FASTA: na EBI serveru BLAST: na stránkách NCBI rychlejší než FASTA BLAT: na stránkách UCSC velmi rychlý, pro vyhledávání vysoce homologních sekvencí Prohledávání databází podle podobnosti sekvencí

34 BLAST Query sekvenceDNAProtein DNABLASTNBLASTX ProteinTBLASTNBLASTP PSI-BLAST Databáze volba metody: TBLASTN: hledá sekvenci proteinů v databázi obsahující atomatické překlady nukleotidových databází ve všech 6 čtecích rámcích. BLASTX: přeloží sekvenci ve všech 6 čtecích rámcích a vzniklými sekvencemi prohledává databáze proteinů. PSI-BLAST: využívá pozičně specifické substituční matice (PSSM), berou v potaz také sekvenční kontext, ve kterém došlo k substituci. Hodí se pro porovnávání vzdálenějších sekvencí.

35 E value (Expectation value) P = 1 – e –E na rozdíl od P-value mohou být hodnoty E-value přesahovat 1 (lépe se porovnávají). Pro E < 0.01, P-value a E-value jsou téměř identické. Hodnoty E-value závisí také na velikosti databází, které prohledáváme! Zmenšením velikosti prohledávaných databází se E-value zvyšuje. Proto vždy nutno uvést kromě E-value také prohledávané databáze a jejich verzi. BLAST statistická významnost:

36 BLAST volba parametrů: Výběr databáze. Omezení prohledávání jen na sekvence z určitých druhů či taxonů E-value. Default hodnota je 10. Snížíme pokud chceme omezit výstup nebo zvýšíme pokud chceme naléz i sekvence s velmi malou podobností. Délka „slova“. Pro aminokyseliny default 3. Zkrácením velikosti slova na 2 se zvýší citlivost, ale velmi se zpomalí prohledávání. Pro nukleové kyseliny default 11. Substituční matice. Default BLOSOM 62. Funguje přes široké spektrum evolučních vzdáleností. Pokud hledáme i velmi vzdálené sekvence, můžeme použít BLOSOM 45. Naopak pro velmi podobné sekvence můžeme použít BLOSOM 80, PAM 30 či PAM 70. Každá substituční matici přísluší jiné hodnoty ceny mezer.

37 Multiple alignment Porovnání několika proteinových či nukleotidových sekvencí za účelem vyhledávání evolučně konzervovaných domén, vytvoření evolučního stromu či jiných evolučních analýz.

38 ClustalW možné problémy: používá globální alignment, musíme mít stejně dlouhé sekvence není možné později opravit chyby vzniklé alignmentem nehomologních částí Multiple alignment princip: 1.vygeneruje alignmenty každých dvou sekvencí 2.spočítá jejich evoluční vzdálenost 3.pro nejbližší dvojici spočítá alignment a k tomu postupně přikládá vzdálenější sekvence

39


Stáhnout ppt "Bioinformatika Radka Storchová. rozšiřující přednášky Fatima Cvrčková: Úvod do bioinformatiky Jan Pačes a Jiří Vondrášek: Bioinformatika doporučená literatura."

Podobné prezentace


Reklamy Google