Počítačová část 1. seznámení s on-line databázemi, nástroji a softwarem (databáze, vyhledání sekvencí, základní manipulace se sekvencemi, navržení primerů)

Slides:



Advertisements
Podobné prezentace
Obecně použitelné odvození
Advertisements

Single Nucleotide Polymorphism
Fylogeografie Studuje geografickou strukturaci populací Navazuje na evoluční biologii, ochranu živ. prostř., taxonomii.
B130P16: Praktické základy vědecké práce Katedra experimentální biologie rostlin PřF UK SciVerse - plnotextové vyhledávání.
B130P16: Praktické základy vědecké práce Katedra experimentální biologie rostlin PřF UK Jak připojit přenosný počítač do.
Poznámky identifikaci SNP
Modul 2 : Práce s počítačem a správa souborů. Rada úvodem - Internet ví všechno, zkuste a
Praktikum základů genomiky, zima 2007 Základy genomiky I. Úvod do bioinformatiky Jan Hejátko Masarykova univerzita, Laboratoř funkční genomiky a proteomiky.
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
Vyhledávání dat podle určených kritérií Máte za úkol vytvořit databázi klientů v bance s jejich osobními údaji, čísly účtů a konečnými zůstatky na těchto.
Jak se pozná nejlepší strom?
REDUKCE DAT Díváme-li se na soubory jako na text, pak je tento text redundantní. Redundance vyplývá z:  některé fráze nebo slova se opakují  existuje.
Algoritmizace a základy programování
Imunologické, mikrosatelity, SSCP, SINE
Algoritmy a programovací techniky
Stanovení genetické vzdálenosti
KOMBINAČNÍ LOGICKÉ FUNKCE
Počítačová část 1. Databáze na internetu: (Databáze, navržení primerů) 2. Fylogenetická analýza.
Projekt HUGO – milníky - I
Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA 0,95 PROTEINY SUBSTITUČNÍ SATURACE p.
Základy molekulární taxonomie J.Flegr, Praha 2008.
Dokumentace informačního systému
Účel procedury: První a závazný krok jakékoli seriozní komparativní studie. Umožňuje vyloučit možnost, že distribuce studovaného znaku (vlastnosti, vzorce.
Bioinformatika Predikce genů, Fylogenetická analýza
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Použití molekulárních znaků v systematice
Počítačová část 1. Databáze na internetu: (Databáze, navržení primerů) 2. Fylogenetická analýza.
Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo.
B130P16: Praktické základy vědecké práce Katedra experimentální biologie rostlin PřF UK iHOP - plnotextové vyhledávání Pubmed.
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
KLIENT ARL školení pro pokročilé listopad Vyhledávání: zvolím bázi (epca nebo auth) zvolím jednoduché vyhledávání z rolety zvolím pole pro vyhledání.
PHP PHP - úvod - 02 Mgr. Josef Nožička IKT PHP
Tvorba statických stránek Mgr. Lenka Švancarová. Tvorba statické stránky Volba Uložit jako XHTML Editor Vizuální Frontpage Nevizuální PSPad Poznámkový.
Klikací mapy v GIMPu Tvorba tzv. klikacích (obrázkových) map s pomocí grafického editoru GIMP Dostupné z Metodického portálu ISSN: ,
Sekvenování.
BLAST (basic local alignment search tool) Vyhledává podobné sekvence v databázích. Stal se nástrojem pro všechno. Určitou dobu kolektiv autorů držel krok.
rozdělení metod využitelnost jednotlivých metod náročnost metod používání metod perspektivy.
KIV/ZIS cvičení 4 Tomáš Potužák. Dotazy - úvod Umožňují pracovat s databází –Získávat specifické informace z tabulky, případně z více tabulek najednou.
Jak vyhledávat informace na Internetu?
8. Syntéza a aplikace výsledků fylogenetických analýz
JAK NAJÍT NEJLEPŠÍ STROM
Opakování lekce 4,5,
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
Informační zdroje pro molekulární biologii M. Jurajda.
14. června 2004Michal Ševčenko Architektura softwarového systému DYNAST Michal Ševčenko VIC ČVUT.
Možnosti využití programu HYDATA. Co je HYDATA? program pro tvorbu databáze dat a jejich dalšího zpracování –(srážky, průtok, výpar a další meteorologická.
„AFLP, amplified fragment length polymorphism“
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
Praktikum z genetiky rostlin JS Genetické mapování mutace lycopodioformis Arabidopsis thaliana Genetické mapování genu odolnosti k padlí.
Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.
SNPs Single Nucleotide Polymorphism Polymorfimus DNA, kdy se jedinci nebo druhy liší v jedné nukleotidové záměně AAGCCTA AAGCTTA V tomto případě mluvíme.
BIOSTATISTIKA LS 2016 Garant předmětu: Ing. Martina Litschmannová, Ph.D. Přednášející: Ing. Martina Litschmannová, Ph.D. Cvičící: Ing. Martina Litschmannová,
Metodologie molekulární fylogeneze a taxonomie hmyzu Bi7770 Andrea Tóthová MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE CZ.1.07/2.2.00/
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..
Ukládání dat biodiverzity a jejich vizualizace
Obecně použitelné odvození
TIPY A RADY PRO PRÁCI S WEB OF SCIENCE – SLUŽBY DOSTUPNÉ PO REGISTRACI
Jak se pozná nejlepší strom?
Albertina a Report Mgr. Libuše Simandlová
MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE
Induktivní statistika
F. A. Fernandéz, F. M. Lutzoni et S. M. Huhndorf (1999):
Fylogenetická evoluční analýza
Jak získáváme znaky pomocí sekvenace unikátních lokusů
Dominika verešová Kateřina Sapáková
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
Obecně použitelné odvození
Jak získáváme znaky pomocí sekvenace unikátních lokusů
Induktivní statistika
SIPVZ – úvodní modul P ICT a změny ve výuce (2 h) metodické poznámky.
Transkript prezentace:

Počítačová část 1. seznámení s on-line databázemi, nástroji a softwarem (databáze, vyhledání sekvencí, základní manipulace se sekvencemi, navržení primerů) 2. fylogenetická analýza

začátky chci studovat populační strukturu, paternitu, příbuzenské vztahy uvnitř nějaké skupiny organismů, … podívat se na NCBI a do databází článků (WOS, PubMed) co se o daném ogranismu/ skupině ví jaké geny jsou sekvenovány, jsou na něj známy primery na mikrosatelity? databáze primerů pro mikrosatelity nebo lze hledat ve WOS nebo na stránkách NCBI a zadat klíčová slova: microsatellite AND …(jméno druhu či příbuzných taxonů)

http://tomato.bio.trinity.edu/index.php

NCBI http://www.ncbi.nlm.nih.gov/ celé sekvence mikrosatelitových lokusů Příklad: NCBI Search - Loxia microsatellite Existují i specializované databáze: MGI - http://www.informatics.jax.org/ příklad DXMit5 (microsatelit na Chr X) Ark - http://www.thearkdb.org/ příklad mikrosatelity na Chr Y prasete

Vyhledávání sekvencí v genové bance (GenBank) jsou známy nějaké sekvence scinka druhu Oligosoma maccanni ? Chci dělat fylogeografii tohoto druhu – jaké geny použili jiní badatelé? Stažení sekvencí se kterými pracovali přímo v určitém článku snadno a rychle … přes GenBank na NCBI

Jak postupovat? V NCBI http://www.ncbi.nlm.nih.gov/

http://www.mbio.ncsu.edu/BioEdit/bioedit.html BioEdit - editor sekvencí - barevné rozlišení - možnost čtení a editace ABI souborů ze sekvenátoru - implementováno mnoho dalších funkcí - alignment - CluslalW - umožňuje slučovat alignmenty, přidávat referenční sekvence, atd. - obsahuje část fylogenetického balíku Phylip - možnost jednoduchých fylogenetických analýz – např. neighbour-joining - BLAST

Práce se sekvencemi on-line SMS- sequence manipulation suite http://sbcr.bii.a-star.edu.sg/sms/index.html - různá manipulace se sekvencemi, převod formátů, reverse complement, náhodná sekvence, … FaBox- umožňuje práci s datasety, převod formátů, rozpojování a spojování datasetů

Kde a čím se sekvence liší? Alignment - pairwise alignment (dvě sekvence) - multiple alignment (víc sekvencí) alignment start pro fylogenetické analýzy jedná se o ustanovení poziční homologie jednotlivých bází v sekvenci (jednotlivých znaků vstupujících do analýzy) vždy se musí pracovat s homologickými znaky existují různé programy a editory na tvorbu a úpravu alignmentů - ruční BioEdit, Macaw - automatické – pracují s různými algoritmy Clustal X, PileUp, Multalin, Mafft mnoho z těchto programů jsou online

Základy fylogenetických analýz znaková data (maximální úspornost (parsimony, MP); maximální pravděpodobnost (likelihood, ML), Bayesiánská analýza, BA) dva typy dat distanční data (neighbour-joining, UPGMA) Přístup metod k výpočtu fylogenetického stromu je dvojí: používají k výpočtu algoritmus (sled specifických kroků) nebo nějaké kritérium optimálnosti MP - princip metody je vybrat strom s minimální celkovou délkou (nejmenší počtem evolučních kroků – např. nejméně substitucí nukleotidů) , metodou se často nalezne několik stejně parsimonních stromů - pro získání jednoho stromu – nutno udělat konsenzuální strom ML – metoda posuzuje hypotézy o evoluční historii zkoumaných taxonů z hlediska pravděpodobnosti, že jsou v souladu se získanými daty. Vyšší pravděpodobnost stromu je preferována nad nižší, nutno zadat model evoluce sekvencí.

Základy fylogenetických analýz ML – vychází z modelu evolučního procesu, který vede ke změně jedné sekvence v druhou (substituční model) často se model navrhuje pomocí dalších programů (Modeltest) na základě vstupních dat - obecně modely uvažují: frekvenci jednotlivých bází pravděpodobnost změny jednoho nukleotidu v druhý (transice x transverze) heterogenita substitučních rychlostí v různých částech sekvence příklady modelů: Jukes-Cantor, Kimurův dvouparametrový model, general time-reversible model Výsledkem ML je jeden strom Další znakovou metodou, založenou na modelu evoluce sekvencí a používající při výpočtu posteriorní pravděpodobnosti (probability) - je Bayesovská analýza (BA) Distanční metody: př.Neighbour-joining (NJ) - používají genetické distance, používá korekce distancí, aby umožnila odhadnout počet nezjištěných změn (podobně jako substituční modely ML)

podpora zjištěných topologií (stanovení spolehlivosti) nejčastěji využití neparametrických technik opakovaného výběru bootstrapping, jackknifing náhodné vybírání znaků z původního datasetu (nukleotidů) ve fylogenetice vlastně vytvoříme mnoho datasetů (založených na stejných datech jako originální dataset, ale v jiném zastoupení), z každého datasetu vypočteme strom, ze všech takto vzniklých stromů vytvoříme konsenzuální strom a procentuální zastoupení jednotlivých větvení (topologie taxonu) ukazuje na míru spolehlivosti větve s bootstrapem < 50% - nelze topologii věřit – může se jednat o náhodu, nad 75% u MP, ML – uspokojivě spolehlivé, 95-100% velmi dobré, pozor na BA – zde se jedná o posteriorní probability- pod 95 (resp. 0.95) topologie nejistá

Take -Home Message! Software: MP: PAUP*, TNT, Phylip, … celkem je několik metod rekonstrukce fylogenetických stromů fylogenetický strom jako výstup jakékoliv metody je jen hypotéza - musíme zjistit spolehlivost topologií výsledek vždy závisí na kvalitě vstupních dat a na dobrém alignmentu (určení homologických znaků, které pak porovnáváme) Software: MP: PAUP*, TNT, Phylip, … ML: PAUP*, PHYML, GARLI, RAxML, Phylip BA: MrBayes NJ: PAUP*, Phylip, MEGA, … + různé internetové aplikace

úloha: příbuzenské vztahy leguánů – zejm. rod Cyclura stáhneme sekvence z GenBank – pro tento případ si stáhneme sekvence použité Malone et al. 2000 - Phylogeography of the Caribbean rock iguana (Cyclura): implications for conservation and insights on the biogeographic history of the West Indies. stáhnout sekvence použité autory do souboru –FASTA formát – otevřít v BioEdit - pozměnit jména aby byla zpracovatelná programy a srozumitelná (8 znaků) udělat alignment - Accesory Application - ClustalW vytvořit fylogenetický strom metodou NJ a Maximální parsimonie v BioEditu pomocí Accesory Application – DNApars, … - outfile a outtree

Strom v závorkové konvenci – lze vložit např Strom v závorkové konvenci – lze vložit např. do TreeView a zobrazit v grafické podobě (IguigNA1_:0.00221,(Iguig:0.01733,(((Cpinguis:0.05228,((((Cstej1:0.00012, Cstej2:0.00098):0.00354,Ccor:0.00543):0.03863,((Cric1:0.00184, Cric2:0.00184):0.01853,(Cyccar2:0.00636,Cyccar1:0.00498):0.01702):0.03298):0.01722, (Ccollei:0.04462,(Crileyi:0.01300,((Clew1:0.00221,Clew2:0.00221):0.00885, (((Ccay1:0.00442,Ccay2:0.00111):0.00111,(Cnubnub1:0.00111,Cnubnub2:0.00000):0.00332):0.00885,((Cinor:0.00000,Cfig1:0.00111,Cfig2:0.00332):0.00221,(Ccychc2:0.00000, Ccychc:0.00000):0.00221):0.01051):0.00442):0.01023):0.02222):0.01447):0.02213):0.06215,Igudeli:0.05379):0.02871,IguigSA1_:0.02231):0.01069):0.02471,IguigCA1_:0.00553); stromy lze prohlížet v různých programech TreeView, FigTree, Dendroscope

Kde hledat na internetu? stránky J. Felsensteina: http://evolution.genetics.washington.edu/phylip/software.html -téměř úplný přehled programů pro fylogenetické analýzy, zobrazování stromů, testy, a vše další potřebné portál Phylemon: http://phylemon.bioinfo.cipf.es/cgi-bin/home.cgi -některé analýzy on-line

Vyhledání restrikčních míst Webcutter http://rna.lundberg.gu.se/cutter2/

Vyhledání restrikčních míst Myš, mtDNA, restrikční místo na pozici 3565 pro BamHI Restrikční místo je jen u jednoho z poddruhů.

Potřebujeme vyhledat primery Stáhnutí sekvence (znám Acc. No. z článku) Ověřit, zda sekvence obsahuje restrikční místo Vyhledání primerů pro amplifikaci úseku, který obsahuje restrikční místo Restrikční místo GGATTC Primer Primer CCTAAG +- 400 bp

Vše přes Internet Sekvence NCBI Primery PRIMER3 Restrikční místo Webcutter

Restrikční místo v mtND1 ACCESSION NC_005089 Restrikční místo 3565 pro BamHI

Kde se dozvědět více? Kurz Computational Genomics (Marc VanRanst, Bioinformatics bookmarks http://www.kuleuven.ac.be/rega/mvr/bioinformatics.htm) Introduction to Bioinformatics (F. Cvrčková, http://kfrserver.natur.cuni.cz/studium/prednasky/bioinfo/index.html) Molekulární ekologie (Pavel Munclinger, letní semestr, populační genetika, analýza paternity) Evoluční genetika (Pavel Munclinger a Radka Storchová, zimní semestr) Molekulární taxonomie + cvičení (J. Flégr, http://www.natur.cuni.cz/~flegr/moltaxmater.php; cvičení V. Hampl http://www.natur.cuni.cz/~vlada/moltax/) Fylogenetický workshop (http://www.fyloshop.webnode.cz/)

Kde najdu adresy stránek z tohoto praktika? (http://www.natur.cuni.cz/~muncling) Další čtení: Phylogenetic Trees Made Easy: A How-To Manual, Third Edition Barry G. Hall, Emeritus, University of Rochester Genetické metody v zoologii J. Zima, M. Macholán, P. Munclinger, J. Piálek Karolinum 2004 Úvod do praktické bioinformatiky F. Cvrčková Academia

Na GenBank najít sekvenci cytochromu b slona (Elephas), zkopírovat úloha: Na GenBank najít sekvenci cytochromu b slona (Elephas), zkopírovat jí ve FASTA formátu > jméno sekvence ATGTGCTTGGAATCCAT do poznámkového bloku a pak: udělat její komplementární sekvenci (např. SMS) převést do proteinů (např. SMS, BioEdit) >gi|59940011|gb|AY769977.1| Elephas maximus clone ABC 6 cytochrome b (cytb) gene, complete cds; mitochondrial ATGACCCACACCCGAAAATCTCACCCCCTGTTTAAAATCATCAACAAATCCTTCATTGATCTACCCACCC CATCTAACATCTCAACATGATGAAATTTCGGCTCACTACTAGGAGCGTGCCTAATTACCCAAATCCTAAC AGGATTATTCCTAGCCATACATTACACACCTGACACAATAACTGCATTTTCATCTATATCCCATATCTGC CGAGACGTCAACTACGGCTGAATTATTCGACAACTGCACTCAAACGGAGCATCTATCTTTTTCCTCTGCC TATACACACACATTGGACGAAACATCTACTATGGATCCTATCTATACTCAGAAACCTGAAACACAGGTAT TATACTACTACTAATCACCATAGCCACCGCCTTCATAGGATATGTCCTTCCATGAGGACAAATATCATTC TGAGGGGCAACCGTAATTACTAACCTCTTCTCAGCAATTCCCTACATCGGCACAAACCTAGTAGAATGAA TTTGAGGAGGCTTTTCGGTAGATAAAGCAACCTTAAACCGATTCTTCGCCTTCCATTTCATCCTTCCATT TACTATAGTTGCACTAGCAGGAGTGCACCTAACCTTTCTTCACGAAACAGGCTCAAACAACCCACTAGGT CTCACTTCAGACTCAGACAAAATTCCCTTCCACCCGTACTATACTATCAAAGACTTCCTAGGACTACTTA TCCTAATTTTACTCCTTCTACTCTTAGCCCTACTATCTCCAGACATACTAGGAGACCCTGACAACTACAT ACCAGCTGATCCACTAAATACCCCCCTACATATCAAACCAGAGTGATACTTCCTTTTTGCTTACGCCATC CTACGATCTGTACCAAATAAACTAGGAGGCGTCCTAGCCCTACTCCTATCAATCCTAATTTTAGGATTAA TACCACTTCTCCACACATCCAAACATCGAAGTATAATACTCCGACCTCTCAGCCAAGTCCTATTCTGAGC TCTAACAATAGACCTACTAATACTTACATGAATTGGCAGCCAACCAGTAGAATATCCTTACATCGCTATC GGTCAAATAGCCTCAATTCTATACTTCTCTATTATTCTAGCCTTCCTACCAATTGCAGGAATAATCGAAAA CTACCTCATTAAATAA

úloha: Ze sekvencí leguánů z předchozího příkladu (ve formátu FASTA) udělejte za použití metody maximum likelihood (program Phyml) fylogenetický strom návod: Na stránkách FABOX si převedeme data ve formátu FASTA do vstupního formátu pro program PAML (stejný jako vstupní formát pro program Phyml, který budeme používat) Create formatted sequence file for PAML analysis (fasta2paml) uložit soubor otevřít nový soubor *.phy – prohlédnout si strukturu formátu počet sekvencí v datasetu délka sekvence název vzorku vlastní sekvence ve formátu interleaved

portál Phylemon volba Phyml – nahrajeme vstupní soubor *.phy a zadáme parametry analýzy (viz obr.) zadáme nejkomplexnější model evoluce sekvence (GTR) a topologii větví ověříme bootstrapem se 100 pseudoreplikacemi, ostatní parametry necháme určit programem na portálu je možné i vizualizovat konečný strom nebo si výstupní strom pouze uložit