Bioinformatika Radka Storchová.

Bioinformatika Radka Storchová

rozšiřující přednášky
Fatima Cvrčková: Úvod do bioinformatiky Jan Pačes a Jiří Vondrášek: Bioinformatika doporučená literatura Fatima Cvrčková: Úvod do praktické bioinformatiky, Academia 2006 přednášky a konference společnosti FOBIA Czech Free & Open Bioinformatic Association

Bioinformatická data DNA RNA protein nukleotidové sekvence
genová exprese RNA Náplň přednášky: Jakými metodami se tyto data získávají. V jaké formě se lze s těmito daty setkat. Kde jsou data uložena. Jak je zpracovávat. protein aminokyselinové sekvence prostorové uspořádání proteinů

Sekvenování DNA Sangerova metoda - manuálně (gely) - automatické sekvenování (sekvenátory), – 700 bp/run Sekvenovací technologie nové generace - 454, Solexa, Solid … - paralelní sekvenování miliónů sekvencí - celkem 100 – 3000 Mb/run - jednotlivé sekvence dlouhé 20 – 400 bp sekvenační gel pyrogram chromatogram

454 sekvenování

Sekvenování DNA T G T T R A C T IUPAC kódy pro nukleové kyseliny A
Adenine C Cytosine G Guanine T Thymine U Uracil R Purine (A or G) Y Pyrimidine (C, T, or U) M C or A K T, U, or G W T, U, or A S C or G B C, T, U, or G (not A) D A, T, U, or G (not C) H A, T, U, or C (not G) V A, C, or G (not T, not U) N Any base (A, C, G, T, or U) T G T T R A C T

Sekvenování proteinů Enzymaticky - Edmanovo odbourávání
Aminokyselinové zkratky Alanine Ala A Arginine Arg R Asparagine Asn N Kyselina asparagová Asp D Cysteine Cys C Glutamine Gln Q Kyselina glutamová Glu E Glycine Gly G Histidine His H Isoleucine Ile I Leucine Leu L Lysine Lys K Methionine Met M Phenylalanine Phe F Proline Pro P Serine Ser S Threonine Thr T Tryptophan Trp W Tyrosine Tyr Y Valine Val V Asparagine nebo kyselina asparagová Asx B Glutamine nebo kyselina glutamová Glx Z Enzymaticky - Edmanovo odbourávání Hmotnostní spektrometrie přes sekvenování DNA či RNA Hmotnostní spetrometr MALDI TOF

Formáty sekvencí text FASTA
CTTAATAACTAATACTATAACATTGGGGCTGGTGAGATGGCTCAGTGGGT AAGAGCACCCGACTGCTCTTCCGAAGGTCCAGAGTTCAAATCCCAGCAAC CACATGGTGGCTCACAACCATCCGCAACATTTTTTTTACTGCCCCCCCCC CACTGTCTGAAGACAGTTACAGTGTACTTACATATATTAATAAAATAAAT CATAAAAAAAATACTGTAA FASTA první řádek začíná znakem „>“, za kterým pokračuje popis sekvence >MSMg01-272P04.TJ: chr1: CTTAATAACTAATACTATAACATTGGGGCTGGTGAGATGGCTCAGTGGGT AAGAGCACCCGACTGCTCTTCCGAAGGTCCAGAGTTCAAATCCCAGCAAC CACATGGTGGCTCACAACCATCCGCAACATTTTTTTTACTGCCCCCCCCC CACTGTCTGAAGACAGTTACAGTGTACTTACATATATTAATAAAATAAAT CATAAAAAAAATACTGTAA

Formáty sekvencí PHILIP počet sekvencí délka sekvencí

Formáty sekvencí CLUSTALW2 file začíní slovem „CLUSTAL“
počet aminokyselin/nukleotidů jméno sekvence * identická sekvence : konzervovaná substituce . semi-konzervovaná substituce

Formáty sekvencí GeneBank

Genová exprese GLOBÁLNÍ ANALÝZA GENOVÉ EXPRESE
stanovení exprese velkého množství genů najednou, v ideálním případě všech genů technologie založené na sekvenování transkriptů EST (Expressed Sequence Tags) SAGE (Serial Analysis of Gene Expression) sekvenovací technologie nové generace (např. Solexa) technologie založené na mRNA hybridizaci DNA čipy (microarrays)

ESTs (Expressed Sequence Tags)
1. Izolace mRNA 4. Sekvenování AAAA AAAA AAAA Expressed sequence Tags „single-pass“ sekvence z 3´ nebo 5´ konce mRNA (cca 500 nukleotidů) 2. Syntéza cDNA AAAA TTTT EST knihovna AAAA TTTT ne příliš kvalitní data málo osekvenovaných mRNA, zachytí jen početné transkripty častá normalizace EST knihoven, poskytuje jen kvalitativní informace o genové expresi zachytí i expresi neznámých genů 3. Zaklonování do vektoru cDNA knihovna

SAGE (Serial Analysis of Gene Expression)
princip z každé molekuly mRNA se v přesně definované pozici vystřihne 14 – 21 bp úsek (= tag) spojení tagů do dlouhých úseků, v nichž jsou jednotlivé tagy odděleny mezerníky. Spojené sekvence se sekvenují sekvence tagu slouží pro identifikaci počet jednotlivých tagů poskytuje kvantitativní informaci o genové expresi kvalitní data kvantitativní informace o genové expresi zachytí i méně početné transkripty zachytí i expresi neznámých genů lze porovnávat data vytvořená v různých laboratořích

Nové technologie sekvenování
Velmi rychlé a relativně levné sekvenování - cDNA knihovy - SAGE knihovny Umožní zachytit i velmi vzácné transkripty Nové technologie, nástroje pro analýzu se vyvíjejí

červený/zelený signál Příprava fluorescenčně značené sondy
DNA čipy (microarrays) dvoukanálové čipy Měření fluorescence červený/zelený signál Izolace RNA Kontrola Vzorek Hybridizace Příprava fluorescenčně značené sondy Próby: - syntetizované oligonukleotidy - cDNA

Příprava fluorescenčně značené sondy
DNA čipy (microarrays) jednokanálové čipy (např. Affymetrix GeneChips) Skenování Izolace RNA Hybridizace Kontrola Analýza dat Vzorek Příprava fluorescenčně značené sondy velmi rychlá metoda kvalitní data kvantitativní informace o expresi zachytí jen expresi známých genů, jejichž sekvence je přítomná na čipu data z jednokanálových čipů lze porovnávat mezi laboratořemi

GeneChip 640 Hybridization Oven
GeneChip 450 Fluidics Station GeneChip G Scanner Affymetrix GeneChip

Affymetrix GenChips využívá 25bp dlouhé próby
každý gen reprezentován próbami, které dohromady tvoří probeset Na jednom čipu může být až několik desítek tisíc prób RNA próba probeset

Affymetrix GenChips 2 typy prób referenční sekvence
TAGGTCTGTATGACAGACACAAAGAAGATG CAGACATAGTGTCTGTGTTTCTTCT CAGACATAGTGTGTGTGTTTCTTCT PM: the Perfect Match MM: the Mismatch

Rozmístění prób na čipu
Affymetrix GenChips Rozmístění prób na čipu Chip description file (cdf) – popisuje polohu jednotlivých prób na čipu a jejich příslušnost k probesetům.

Affymetrix GenChips Analýza obrazu .DAT file .CEL file
Generován automaticky pomocí programu GCOS (Affymetrix)

Získání expresních dat
Affymetrix GenChips Získání expresních dat Převedení intenzity fluorescence do číselných hodnot genové exprese - Background adjustment - Scaling - Summarization Algoritmus: MAS5 (Affymetrix) RMA/GSRMA Background adjustment: Corrects for background noise, processing effects, adjusts for cross hybridization, adjust estimated expression values to fall on proper scale Scaling or normalization: Is a process of reducing unwanted variation across chips. It may use information from multiple chips. Summarization: Reduce the probe intensities for each probeset on to a gene expression value .CHP file

Databáze Relační databáze křížení genotypy markery relační schéma
myš vrh matka otec myš lokus_A lokus_B lokus_C markery marker chromosom pozice relační schéma SQL (Structured Query Language) SELECT myš FROM křížení LEFTJOIN ON genotypy USING myš WHERE lokus_A = ‘X’ and matka = ‘Y’

Primární databáze DNA sekvencí
GeneBank (Amerika) EMBL (Evropa) DDBJ (Japonsko) Obsahují více než 100 gigabází z více než organismů Totožný obsah Redundantní Nemoderované

Specializované databáze
Databáze genů RefSeq, Entrez Gene Cílem poskytnout kompletní, neredundantní soubor genů a jejich sekvencí. Přiřadit k sobě sekvence DNA, mRNA a proteinů. Dát jim jednotné a stabilní identifikátory. Shromažďují biologické informace o jednotlivých genech, jejich produktech. Jen ověřená data. Databáze genových expresních dat dbEST. Databáze EST (Expressed Sequence Tags). UniGene. Sekvence mRNA a EST jsou zde uspořádány do neredundantních „klastrů“. Každý z nich představuje unikátní trankript GEO. Obsahuje expresní data získaná pomocí DNA čipů, SAGE a jijných metod. Databáze proteinů UniProt. Nejobsáhlejší katalog informací o proteinech a centrální úložiště proteinových sekvencí a informací o funkci proteinů. Vznikla sloučením databází Swiss-Prot a TrEMBL. PDB. Obsahuje trojrozměrné struktury proteinů.

Specializované databáze
Gene Ontology Smyslem vytvořit jednotnou terminologii pro popis funkce genových produktů. Termíny jsou hierarchicky uspořádané od obecnějších funkcí po specializované funkce Termíny vycházejí ze tří kategorií 1. lokalizace v buňce (mitochondrie, jádro, endoplazmatické retikulum, ribozom…) 2. biologická funkce (signální transdukce, pyrimidinový metabolismus…) 3. molekulární funce (katalytická aktivia, vazebná funkce, adenylát cyklázová aktivita) Vyhledávání lze omezit i na určité druhy či taxony

Databáze genomů Ensembl NCBI UCSC Genome Browser
Vycházejí ze stejné DNA sekvence (assembly), ale přidávají k ní vlastní anotace a predikce genů. Liší se možnostmi prohledávání a exportu dat.

Porovnávání sekvencí a určování míry jejich podobnosti
Pairwise alignment Multiple alignment Globální vs. Lokální alignment

Alignment Substituční matice teoreticky odvozené empiricky odvozené
1 teoreticky odvozené empiricky odvozené PAM: založené na alignmentech blízce příbuzných proteinů. PAM1 matice stanovena z alignmentů sekvencí s ne větší než 1% divergencí. Ostatní PAM matice odvozené od PAM1. Hodí se na porovnávání blízce příbuzných proteinů. nejjednodušší substituční matice pro nukleotidové sekvence BLOSUM: vycházejí z většího množství více rozmanitých proteinů. Všechny BLOSUM matice stanovené z reálných alignmentů. BLOSUM 62 stanovená z alignmenů sekvencí s ne větší než 62% identitou. Default matice. BLOSUM 80 BLOSUM 62 BLOSUM 45 PAM 1 PAM 120 PAM 250 více podobné sekvence méně podobné sekvence

Alignment cena mezer (gap penalty)
neexistují žádné teorie pro odvození ceny mezer cena za otevření mezery (a) – větší než jakákoli substituce (a = -10 pro BLOSUM 62) cena za prodloužení mezery (b) – jakmile jednou mezera vznikne, její prodloužení je snadné (b = -1 pro BLOSUM 62)

Alignment Výhody porovnání aminokyselinových sekvencí ve srovnání s nukleotidovými sekvencemi Existuje 20 různých aminokyselin, ale jen 4 různé nukleotidy. Proto lze vypočítat statistiku i pro mnohem kratší alignmenty aminokyselin. Při porovnávání AK sekvencí se bere v potaz pravděpodobnost substitucí různých aminokyselin. Degenerovaný genetický kód. Zhruba 1/3 nukleotidových substitucí nezpůsobuje záměnu AK, nejsou pod selekčním tlakem. Vytvářejí šum. Proto i když chceme udělat alignment kódujících DNA sekvencí, je lepší ho udělat na úrovni aminokyselin a ty pak nahradit příslušnými nukleotidy.

Prohledávání databází podle podobnosti sekvencí
PROHLEDÁVACÍ ALGORITMY: SSEARCH: vytváří alignmenty zadané sekvence (query) s každou sekvencí v databázi. Výpočetně velmi náročné. heuristické metody: předem vyloučí sekvence, které jsou zadávané sekvenci nepříbuzné. Hledání krátkých společných motivů („slov“), alignmenty se vytváří jen s těmi sekvencemi, které mají alespoň jedno společné „slovo“. FASTA: na EBI serveru BLAST: na stránkách NCBI rychlejší než FASTA BLAT: na stránkách UCSC velmi rychlý, pro vyhledávání vysoce homologních sekvencí

BLAST volba metody: Databáze Query sekvence DNA Protein BLASTN BLASTX
TBLASTN BLASTP PSI-BLAST TBLASTN: hledá sekvenci proteinů v databázi obsahující atomatické překlady nukleotidových databází ve všech 6 čtecích rámcích. BLASTX: přeloží sekvenci ve všech 6 čtecích rámcích a vzniklými sekvencemi prohledává databáze proteinů. PSI-BLAST: využívá pozičně specifické substituční matice (PSSM), berou v potaz také sekvenční kontext, ve kterém došlo k substituci. Hodí se pro porovnávání vzdálenějších sekvencí.

BLAST statistická významnost: E value (Expectation value) P = 1 – e –E
na rozdíl od P-value mohou být hodnoty E-value přesahovat (lépe se porovnávají). Pro E < 0.01, P-value a E-value jsou téměř identické. Hodnoty E-value závisí také na velikosti databází, které prohledáváme! Zmenšením velikosti prohledávaných databází se E-value zvyšuje. Proto vždy nutno uvést kromě E-value také prohledávané databáze a jejich verzi.

BLAST volba parametrů:
Výběr databáze. Omezení prohledávání jen na sekvence z určitých druhů či taxonů E-value. Default hodnota je 10. Snížíme pokud chceme omezit výstup nebo zvýšíme pokud chceme naléz i sekvence s velmi malou podobností. Délka „slova“. Pro aminokyseliny default 3. Zkrácením velikosti slova na 2 se zvýší citlivost, ale velmi se zpomalí prohledávání. Pro nukleové kyseliny default 11. Substituční matice. Default BLOSOM 62. Funguje přes široké spektrum evolučních vzdáleností. Pokud hledáme i velmi vzdálené sekvence, můžeme použít BLOSOM 45. Naopak pro velmi podobné sekvence můžeme použít BLOSOM 80, PAM 30 či PAM 70. Každá substituční matici přísluší jiné hodnoty ceny mezer.

Multiple alignment Porovnání několika proteinových či nukleotidových sekvencí za účelem vyhledávání evolučně konzervovaných domén, vytvoření evolučního stromu či jiných evolučních analýz.

Multiple alignment ClustalW princip: možné problémy:
vygeneruje alignmenty každých dvou sekvencí spočítá jejich evoluční vzdálenost pro nejbližší dvojici spočítá alignment a k tomu postupně přikládá vzdálenější sekvence možné problémy: používá globální alignment, musíme mít stejně dlouhé sekvence není možné později opravit chyby vzniklé alignmentem nehomologních částí

Bioinformatika Radka Storchová.

Podobné prezentace

Prezentace na téma: "Bioinformatika Radka Storchová."— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

Bioinformatika Radka Storchová.

Podobné prezentace

Prezentace na téma: "Bioinformatika Radka Storchová."— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář