MOLEKULÁRNÍ TAXONOMIE Náplň kurzu Co je to molekulární taxonomie Zvláštnosti molekulárních znaků Metody získávání experimentálních dat Metody zpracovávání dat Biologická interpretace Vaše dotazy a moje odpovědi
MOLEKULÁRNÍ TAXONOMIE Rozpis přednášek (9:50-11:20) 21. 2. - Zahájení kurzu, taxonomie a molekulárně biologické znaky, metody sekvenace DNA 27. 2. (16:30) - Alignment sekvencí + Databáze sekvencí a vyhledávání v nich (Marián Novotný) 7. 3. - Získávání nesekvenčních molekulárních dat - multilokusové metody (RAPD, RFPL aj.), mikrosatelity, minisatelity, izoenzymová a alozymová analýza, imunologické metody 14. 3. - SNP, evoluce sekvencí, odhad evoluční vzálenosti 21. 3. - Fylogenetické stromy I. - Proteinové distance, konstrukce fylogenetických stromů z matice distancí, anatomie stromů 28. 3. - Fylogenetické stromy II. Rate heterogeneity, prohledávání prostoru stromů, maximální parsimonie 4. 4. - Fylogenetické stromy III. - Metoda maximum likelihood, Bayéská metoda Praktikum 7. 4.: Získávání sekvencí z veřejných databází (Karnkowska) Biologický čtvrtek 10. 4.: Čtení stromu života z genomových sekvencí 18 .4. - Fylogenetické stromy IV. - Multigenové analýzy, určení věrohodnosti větvení stromů, nalezení kořene, testy topologie, datování pomocí molekulárních hodin 25. 4. - Speciace a hybridizace, kryptické druhy, příklady (Radka Reifová) Praktikum 28. 4.: Tvorba alignmentu, tvorba stromů ze sekvencí DNA 2. 5. - Identifikace jedinců, určování rodičovství, DNA barcoding Praktikum 5. 5.: Tvorba stromů ze sekvencí proteinů 9. 5. Vnitrodruhová fylogeneze, struktura populace a genový tok, fylogeografie, příklady – odevzdání nepovinného eseje Praktikum 12. 5.: multigenové analýzy, testy, distanční data, analýza migrace 23. 5. - Prezentace studentů
MOLEKULÁRNÍ TAXONOMIE Zkouška Součásti zkoušky: Písemná část (5 příkladů) – maximální zisk 10 bodů Ústní část – maximální zisk 10 bodů Nepovinný esej (2-3 strany) a jeho prezentace (10 min.) – 4 body Hodnocení: 11-13 bodů – dobře 14-17 bodů – velmi dobře 18 a více - výborně
MOLEKULÁRNÍ TAXONOMIE Materiály ke studiu WEB (Hampl): http://web.natur.cuni.cz/~vlada/moltax/ Moodle: klíč k zápisu „moltax“ WEB (Flegr): http://web.natur.cuni.cz/~flegr/moltaxmater.php KNIHY Flegr J. Evoluční biologie, Academia 2005. Kapitoly: IX.Evoluce sekvence DNA a XXIV. Molekulární fylogenetika Avise J.C. Molecular markers, natural history and evolution. Sinauer Associates, Inc., 2004 Felsenstein J. Inferring phylogenies. Sinauer Associates, Inc., 2004 Lindell Bromham Reading the story of the DNA. Oxford University press 2008. Higgs P. a Attwood T.K. Bioinformatics and molecular evolution. Blackwell publishing 2005. Sapp: The new foundation of evolution. Oxford university press 2009 Yang: Computational Molecular Evolution. Oxford university press 2006 Hillis a kol.: Molecular Systematics (2nd edition). Sinauer Associates 1996 Wiley a Lieberman: Phylogenetics (2nd edition). Wiley-Blackwell 2011
Molekulární taxonomie Co to je za obor? Taxonomie (systematika) využívající molekulárně biologické znaky. Taxonomie (systematika) = Snaží se katalogizovat biodiverzitu a uspořádat ji do systému obvykle hierarchicky řazených skupin. Rozdíly v sekvenci DNA (potažmo proteinů). Nepatří sem znaky na jiným molekulách (lipidy, polysacharidy, proteoglykany, terciární struktury proteinů aj.)
Taxonomie Podle většinového názoru taxonomů je nejlepším přirozeným systémem organizmů ten, který odráží průběh jejich fylogeneze. Fylogenetika – zabývá se vznikem a vývojem linií organizmů. Rekonstruje průběh kladogeneze (větvení), ale všímá si i anageneze vývoje vlastností organizmů v rámci linie.
Taxonomie Existují různé názory na použitelnost znaků pro rekonstrukci fylogeneze: Fenetika (podobnost) – používá všechny znaky Kladistika (důraz na příbuznost) – používá výhradně synapomorfie x1 y1 z1 x1, y1, z1 = plesiomofie x2 = synapomorfie pro BCD y2 = autapomorfie pro B z2 = homoplázie (konvergence) pro ED
taxonomie Numerická taxonomie (60. minuleho století) – první pokus o objektivizaci taxonomie. Kladli důraz na použití velkého množství dat a vyvinuli matematické postupy, jak z nich vypočítat celkovou podobnost (nebo naopak odlišnost - distanci) mezi taxony. Je to tzv. fenetický přístup. Kritizováni kladisty za to, že jim nevadí homoplázie. Metody konstrukce stromů označované jako fenetické (založené na distancích) byly nebo jsou kladisty neprávem zavrhovány. Kladistické metody (maximální parsimonie) se v praxi dostávají do podobných obtíží, nemají vodítko, jak rozeznat homoplázie a konflikty mezi znaky řeší nakonec podobně jako „fenetické“ metody.
Základním požadavkem na přirozený taxon je jeho monofyletičnost. Taxonomie Základním požadavkem na přirozený taxon je jeho monofyletičnost. Monofyletický taxon je takový, jehož členové si jsou vzájemně příbuzní více, než je kdokoli z nich příbuzný druhu mimo jinak řečeno, takový, který zahrnuje všechny potomky jednoho předka Monofyletický (přípustný pro evoluční taxonomy i kladisty) Parafyletický (přípustný pro evoluční taxonomy) Polyfyletický (nepřípustný)
Taxonomie Na základě znalosti fylogeneze lze určit, které taxony vytvářet nesmíme, není však možné určit, které taxony vytvářet máme nebo musíme.
homologie Homologie jsou podobnosti mezi komplexními strukturami nebo vzory, které jsou způsobeny kontinuitou biologické informace. (Riedl a Hazsprunar) Synapomorfie a symplesionorfie = homologie Homoplásie ≠ homologie, je to analogie, ale někdy záleží na úrovni pohledu (křídlo ptáka, netopýra a pretodactyla).
homologie Homologický vztah indikuje: Odpovídající poloha Podobnost v detailech ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG Alignment sekvencí ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG
homologie Homologický vztah vyvrací: Přítomnost obou struktur u jednoho druhu Inkongruence s mnoha jinými znaky
Molekulární taxonomie Co to je za obor? Taxonomie (systematika) využívající molekulárně biologické znaky. Taxonomie (systematika) = Snaží se katalogizovat biodiverzitu a uspořádat ji do systému obvykle hierarchicky řazených skupin. Rozdíly v sekvenci DNA (potažmo proteinů). Nepatří sem znaky na jiným molekulách (lipidy, polysacharidy, proteoglykany, terciární struktury proteinů aj.)
Překvapivé množství polymorfismu Liší se asi ve 3 miliónech nukleotidů Kdyby tyto různé alely genů měnily fitness, byly by přírodním výběrem rychle eliminovány nebo naopak fixovány a žádný polymorfismus bychom v daných místech nepozorovali.
Neutrální teorie evoluce Liší se asi ve 3 miliónech nukleotidů Naprostá většina substitucí na úrovni DNA je selekčně neutrální neutrálních, mutanti mají stejnou fitness. Tyto mutace jsou pro selekci neviditelné a jejich fixaci či eliminaci způsobuje genetický drift (posun). Ten je u velkých populací pomalý, obě alely tam přetrvávají dlouho dobu a my je detekujeme jako polymorfismy.
GENETICKÝ DRIFT
Neutrální teorie evoluce Aby bylo jasno: Neutrální teorie netvrdí, že většina genů je postradatelná, ale tvrdí, že většina forem (alel) téhož genu je funkčně stejně dobrá. Neutrální teorie netvrdí, že nejsou mutace se škodlivým efektem, které jsou eliminovány přírodním výběrem, ale tvrdí že takových mutací je menšina. Neutrální teorie nezavrhuje darwinistickou adaptivní evoluci poháněnou přírodním výběrem, ale tvrdí, že většina mutací je pro přírodní výběr „neviditelná“ a k adaptivní evoluci nepřispívá. Neutrální teorie nejlépe vysvětluje, kde se bere tolik polymorfismu (rozdílů) v DNA.
VÝHODY MOLEKULÁRNÍCH ZNAKŮ 1. Jsou genetické Víme jak se dědí, nezávisí na prostředí ani genetickém pozadí. Je to právě ta úroveň kde vznikají evoluční novinky – mutace v DNA. 2. Je jich obrovské množství: Velikost genomů se pohybuje od 0,5*106 – 600*109. Lidský genom obsahuje přes 3 miliardy párů bazí. Odhaduje se, že lidé se mezi sebou liší v 0,1% tj 3 miliónech bazí.
VÝHODY MOLEKULÁRNÍCH ZNAKŮ 3. Jsou selekčně neutrální Podle nich snadněji rozlišíme homologii a homoplázii Sup africký Kondor andský Sup africký
VÝHODY MOLEKULÁRNÍCH ZNAKŮ 4. Jsou použitelné od těch nejvzdálenějších srovnání … ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG
VÝHODY MOLEKULÁRNÍCH ZNAKŮ 4. … až po porovnávání jedinců téhož druhu
VÝHODY MOLEKULÁRNÍCH ZNAKŮ ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG 1 2 5. Dají se jednoznačně popsat 6. Jsou nezávislé 7. Jsou lépe vážitelné 8. Lépe se kvantifikuje stupeň nejistoty
VÝHODY MOLEKULÁRNÍCH ZNAKŮ Molekulární hodiny Informace o populaci
NEVÝHODY MOLEKULÁRNÍCH ZNAKŮ Neposkytují informaci o anagenezi Cena Někdy destruktivní charakter
Historie – 60. léta Linus Pauling, Emile Zuckerkandl (Molecules as Documents of Evolutionary History, 1964) Robert Sokal, Peter Sneath (Numerical taxonomy, 1963) Willi Henning (Phylogenetic systematics, 1966) Luigi Cavalli-Sforza, Anthony Edwards (metody maximální parsimonie a maximum likelihood, 1963-1966)
Historie – 60. – 90. léta Margaret Dayhoff Motoo Kimura Masatoshi Nei (Atlas of protein sequence and structure, 1965) Motoo Kimura (Neutral theory of evolution, 1968) Masatoshi Nei (substituční modely, 80. léta) Joe Felsenstein (PHYLIP - Phylogeny Inference Package, 1995, artefakty fylogenetických metod – long branch attraction) (David Swofford – PAUP )
závěr Pro tvorbu přirozeného systému je nezbytné znát fylogenezi organizmů Je dovoleno vytvářet jen monofyletické případně parafyletické taxony Molekulární znaky mají spoustu důležitých výhod Molekulární znaky jsou vhodné pro studium studium kladogeneze nikoli anageneze Molekulární znaky vznikají převážně neutrální evolucí a k jejich fixací přispívá genetický drift
SEKVENACE DNA
Cyklus 1 PCR Cyklická reakce zahrnující denaturaci templátu, nasednutí primeru a polymeraci. Jednostranně ohraničené řetězce vznikají pouze z původní DNA templátu. Oboustranně ohraničené řetězce jsou samy sobě templátem, jejich počet roste geometrickou řadou a po 30 – 40 cyklech zcela převáží nad ostatní DNA ve vzorku. Cyklus 2
Sangerova metoda - I PCR Amplifikace Vložení do plazmidu Sekvenace
Sangerova metoda - II G G G G Kapilární elektroforéza
Next generation sequencing Díky masivní paralelizaci (najednou sekvenují milióny templátů ) dokáží v krátkém čase vygenerovat obrovské množství sekvencí. Cena za 1 bázi podstatně klesá. With the ultimate goal of deciphering the human genome, the throughput requirement of DNA sequencing grew by an unpredicted extent, driving developments such as automated capillary electrophoresis. Laboratory automation and process parallelization resulted in the establishment of factory-like enterprises called sequencing centers that house hundreds of DNA sequencing instruments operated by cohorts of personnel. However, even successful completion of the two competing human genome projects did not satisfy biologists' hunger for even greater sequencing throughput and, most importantly, a more economical sequencing technology. The first signs of what might revolutionize the sequencing market appeared in 2005 with the landmark publication of the sequencing-by-synthesis technology developed by 454 Life Sciences5 and the multiplex polony sequencing protocol of George Church's lab6. Both groups used a strategy that greatly reduces the necessary reaction volume while dramatically extending the number of sequencing reactions. The strategy entailed arraying several hundred thousand sequencing templates in either picotiter plates or agarose thin layers, so that these sequences could be analyzed in parallel—a huge increase compared to the maximum of 96 sequencing templates on a contemporary Sanger capillary sequencer. Although even the first version of 454's instrument could easily generate a throughput equivalent to that of more than 50 Applied Biosystem's 3730XL capillary sequencers at about one-sixth of the cost, the reaction of the scientific community was surprisingly reserved. Instead of embracing the new technology and rapidly adapting to use its enormous potential, many scientists accustomed to using Sanger sequencing raised issues such as sequencing fidelity, read length, infrastructure cost or simply objected to the need to handle the large volume of data generated using the new technology. This skepticism, initially echoed by funding agencies, may have been driven by the fear that substantial investments in Sanger-type sequencing hardware would become obsolete. Most critics, however, overlooked the fact that many obstacles they attributed to next-generation sequencing were experienced in much of the same way by Sanger sequencing in its early stages, when read length rarely exceeded 25 bp and attained 80 bp only with the arrival of Fred Sanger's dideoxy terminator chemistry. The sequencing-by-synthesis technology, which uses pyrosequencing for readout, initially started with a read length of 100 bp, which after 16 months on the market had increased to 250 bp. Recent developments have raised the mark again to more than 400 bp, approaching today's Sanger sequencing read length of 750 bp. Besides read length, the number of sequencing reads (or sequence tags) that can be produced in a single instrument run for a given cost is another important factor. These issues have been targeted by 454's competitors, whose systems generate up to tenfold more reads, albeit at the cost of a much shorter read length of 35 or fewer base pairs. Today three commercial next-generation DNA sequencing systems are available: namely Roche's (454) GS FLX Genome Analyzer marketed by Roche Applied Sciences, Illumina's Solexa 1G sequencer, and most recently Applied Biosystem's SOLiD system. Additional contenders, who are believed to be poised to enter the market within 1 to 2 years, are the '3rd generation' (also called 'next-next-generation') sequencing systems based on single-molecule analysis and developed by the companies VisiGen and Helicos. Although the proof-of-principle study by Margulies et al.5 demonstrated that small- and medium-sized bacterial genomes can be sequenced with one or two instrument runs, it was not immediately accepted that pyro-sequencing would enable sequence-based biological projects that were not feasible with Sanger sequencing. Initial projects involving Roche's 454 GS20 instrument either resequenced existing bacterial genomes or used the data to complement ongoing large 'Sanger projects'. Other initial studies immediately focused on metagenomics as this line of research, besides requiring datasets that can be larger than the human genome, has traditionally suffered from library-construction and cloning-host biases. From this point of view, the 454 technology rapidly appeared to present a key advantage in the combination of emulsion PCR and pyrosequencing. Emulsion PCR allows for bias-free amplification of single DNA molecules by entrapping them in lipid microreactors, thereby avoiding competition by multiple templates for a limited number of DNA polymerases. Pyrosequencing, in turn, can easily be performed in parallel and generate a visual signal for processing by a computer system. Early studies published in 2006 demonstrated the versatility of next-generation sequencing for unraveling the microbial diversity of a deep mine7, rare biospheres in the deep sea8 or marine viromes in multiple oceans9. A study in late 2005 combined metagenomics analysis with the field of ancient DNA research10. With a single run of a Roche (454) GS20 instrument, the analysis of 13 Mb of sequence from the nuclear genome of a 28,000-year-old mammoth became possible10, thereby paving the way for the even more challenging project of deciphering the Neanderthal genome11, 12. The ancient humanoid genome project faces even more difficult hurdles than the ancient elephantid project, as the amount of Neanderthal DNA that can be obtained from available samples is less than 5% of the total DNA extracted, when compared to a sample from a modern human. Therefore, 20 times more sequencing is required for the ancient project than for a modern human genome. The latest next-generation sequencing instruments can generate as much data in 24 h as several hundred Sanger-type DNA capillary sequencers, but are operated by a single person. Further, the combination of DNA damage occurring in samples with an ambient-temperature storage history and the next-generation sequencing error often exceeds the sequence divergence determined for modern humans and Neanderthals. The assertion that a given sequence is from the ancient specimen, and not a modern contaminant, is therefore easier for mammoth, as modern elephants, unlike humans, generally do not frequent the laboratory environment. The obstacles of obtaining genuine ancient mammalian sequences on a genome-wide scale will therefore require multiple-fold coverage of a given region or resequencing with a combination of methods to ascertain the origin. Both can only be achieved through additional dramatic cost-cutting for projects of this scale. This, together with the breakthroughs made for sequencing complex DNA mixtures from most diverse sources will allow for the study of any ecosystem of this planet at the sequence level. It will also open a window to the flora and fauna of at least the last 100,000 years, in ways far beyond what would have been deemed possible only a short while ago. At the cellular level, next-generation sequencing has been applied to the resequencing of previously published reference strains, but it also allowed for the first time the identification of all mutations in an organism at the genomic level. Initial studies in 2005 identified drug-resistance alleles in Mycobacterium tuberculosis13, while Velicer et al.14 were the first to identify all mutations in a 9-Mb bacterial genome taken from a strain that had evolved for 1,000 generations. Through these early attempts it became clear that the new technology not only has the power to detect new mutations and allow identification of errors in published literature14, but that it also has to deal with challenges, namely sequencing errors, such as homopolymer errors in pyrosequencing or rapidly deteriorating 3' sequence quality in next-generation technologies with short read length. The initial solutions were strategies that mixed Sanger and pyrosequencing data15. As the cost and effort of the Sanger component in any project still is prohibitively expensive, many laboratories now rely solely on next-generation sequencing data or combine the advantages of relatively long reads from pyrosequencing with the low operating costs of Illumina's Solexa or Applied Biosystem's SOLiD platforms, thereby independently verifying each system's performance. With the availability of more non-Sanger sequencing methods, it now becomes possible to assess both the next-generation sequencing accuracy and the correctness of the vast majority of Sanger-based reference sequences in the public databases. The goal of generating large amounts of sequence data from closely related organisms is driving the application known as resequencing, which handles the sequence data in different ways than de novo assemblies of genomes. In resequencing, the assembly is guided by a reference sequence and requires much less coverage (8–12) than assembling genomes de novo (25–70). One study using this approach sequenced 10 mammalian mitochondrial genomes16, thus enabling population-genetic studies based on complete mitochondrial genomes rather than just short sequence intervals. Currently, many microbial sequencing projects are underway that will not only help to expand the number of available genomes, but also enable many comparative studies that will link genotype and phenotype at the genomic level. Even the study of organisms that are not scheduled now for genomic sequencing will benefit from next-generation sequencing approaches that allow direct access to deciphering the cell's transcripts on the sequence level. Characterizing transcripts through sequences rather than through hybridization to a chip is advantageous in many ways. Most importantly, the sequencing approach does not require the knowledge of the genome sequence as a prerequisite, as the transcript sequences can be compared to the closest annotated reference sequence in the public database using standard computational tools. Knowing the sequence of transcripts will therefore truly revolutionize the research of organisms that are not now in line for genomic sequencing, and in some instances never will be. Initial examples for this line of research have shown that it is possible to align cDNA sequences to reference genomes as distant as the legume Meticago truncatula and the plant reference Arabidopsis thaliana17 and revealed a large number of previously undescribed expressed sequence tags in Zea mays (maize)18. A similar transcriptomics approach could circumvent the problems posed by extremely large genomes. Despite having successfully enabled viral, microbial and large-scale mammalian sequencing projects, Sanger sequencing left the task of unraveling genomes of polyploidic plants to its successors. These gigantic genomes, often associated with crop plants, such as wheat with its 16-Gb hexaploid genome, have made previous sequencing attempts futile. However, the promise of much lower sequencing cost with the now proven concept of next-generation expressed-sequence-tag sequencing will allow assessment of plant genomes at least at the functional level18. Finally, next-generation sequencing has applications that are immediately relevant to the medical field. In cancer genetics, for example, specific cancer alleles can now be detected in tissues through ultra-deep sequencing of genomic DNA, in instances where previous Sanger-based trails have failed19. Short read length, initially deemed a major drawback of next-generation sequencing, becomes a blessing when the Sanger-based 700-bp read length is traded for a much larger number of sequence reads. As cancer genetics does not follow the path of Mendelian inheritance, laser-capture microdissection must be used for enrichment of the alleles of interest and targeted by sequencing of PCR products and/or amplicon sequencing while avoiding the traditional cloning and PCR biases. Despite having already enabled a plethora of studies using next-generation sequencing, scientists and engineers who are working on this technology—and the companies that commercialize the applications—still have a long to-do list of improvements. High on the list is cost reduction: a reduction of 1–2 orders of magnitude is needed to deliver on the promise of personal genomics, which targets a cost of $1,000 for the resequencing of a human genome. Additionally, a reduced sequencing error rate would be highly welcome, not only for all present next-generation sequencing technologies, but also for Sanger sequencing, which clearly will continue to make valuable contributions in the immediate future. This might come in the form of custom-tailored DNA polymerases that provide a direct readout of DNA sequence in the form of emitted light, but even with these improvements we are unlikely to see a digital translation of DNA sequence into machine-readable code. As cost comes down, the amount of data are likely to skyrocket, creating an analytical bottleneck. Therefore much of the gain provided by future generations of sequencing instruments will be offset by increased costs and efforts on the bioinformatics front. With the publication of more than 100 research articles in less than two years, next-generation sequencing has demonstrated its enormous potential for anyone working in the life sciences, at a time when many believed the age of post-genomics had arrived. It also has brought the field of genomics back into the laboratories of single investigators or small academic consortia, as is evidenced by the fact that the majority of next-generation sequencing publications originate from sites other than the large genome centers. One therefore will wonder, when looking back from the not too distant future, why the application of next-generation sequencing technologies initially was not more cheerfully welcomed in the scientific community and, more importantly, by the public funding agencies. Hopefully this lesson will have been learned when the 3rd generation of sequencing instruments is introduced, as by then the success of the current initiatives should have broken the ice that 30 years of Sanger sequencing have cast over the sequencing landscape. Published online: 19 December 2007.
454 – emulzní PCR
454 – destička
454 - chemie
454 - VÝSTUP
Ion torrent
Illumina – vazba na sklíčko
Illumina - amplifikace
Illumina - Čtení
Illumina - Čtení
Real Time sequencing Pacific biosciences
závěr Porovnání některých parametrů technologií sekvenace DNA Technologie Délka čtení Množství na jeden běh Sanger 1000 bp 36 Kb 454 700 bp 0,7 Gb Ion Torrent 400 bp 2 Gb Illumina 300 bp (125 bp) 15 GB (1000 Gb) Pacbio RS 8500 bp 375 Mb Metody jsou různě vhodné k různým účelům. Na „de novo“ sekvenování je nejvhodnější Sanger a 454 a Pacbio RS. Illumina je lepší na re-sekvenování. Někdy je dobré metody kombinovat.