Molekulární genetika rostlin Rostlinný genom Chromatin a metylace DNA RNA interference Mimojaderné genetické elementy Transpozóny, viry a viroidy Klasické genetické mapování Transgenoze a reverzní genetika Genomika Transkriptomika a proteomika
Členění rostlinného genomu jaderný genom = genom sensu stricto plastidy - plastom mitochondrie - chondriom
Velikost rostlinného genomu 54 Mbp – Cardamine amara 124 852 Mbp - Fritillaria 149 000 Mbp - Paris japonica momentálně největší známý genom (mnohobuněčný) http://data.kew.org/cvalues/
C-value velikost nereplikovaného genomu v gametě genome size (bp) = (0.910 x 109) x DNA content (pg) DNA content (pg) = genome size (bp) / (0.910 x 109) 1 pg = cca 910 Mbp; MW (1 bp) = cca 660 Da
Velikosti rostlinných genomů 10 Mb Ostreococcus (jednobuněčná řasa) 54 Mb Cardamine amara 64 Mb Genlisea aurea 125 Mb Arabidopsis 500 Mb Oryza 5 000 Mb Hordeum 17 000 Mb Triticum 84 000 Mb Fritillaria (největší diploidní) 143 000 Mb Paris (oktaploidní) - u krytosemenných rostlin rozdíly ve velikosti téměř 3 000 x - u nahosemenných velké genomy často kolem 10 000 Mb - rozdíly v počtu genů menší (cca 20 – 200 tis.?) poměr objemu koulí 3000x
Velikosti rostlinného genomu Co lze vyčíst? genomy v evoluci rostou (původnější jsou menší genomy) průměrný nárůst velikosti genomu je vyšší u jednoděložných
C-value paradox Příčiny: neexistuje korelace mezi komplexitou organismu a velikostí jeho genomu i genomy fylogeneticky blízkých organismů se často výrazně liší velikostí genomu Příčiny: - duplikace úseků rostlinné DNA či celých genomů (polyploidizace) - množení invazní DNA (transpozóny) - ale i redukce velikosti rekombinací a delecemi (př. 2n bavlníky)!
Typy sekvencí v jaderném genomu (členění není zcela jednoznačné) Jedinečné sekvence – geny i nekódující DNA Středně repetitivní DNA Tandemové repetice rRNA, tRNA a histonových genů (jejichž produkty jsou potřeba ve větším množství) Mnohočetné genové rodiny (jen při vysokém % identity nukleotidových sekvencí – jinak unikátní) Pohyblivé genetické elementy (transpozóny) - i vysoké počty repetic (někdy spadají pod vysoce repetitivní) Sekvence s nízkou komplexitou (vysoce repetitivní) Tandemově uspořádané krátké sekvence (SSR) Centromery (180 bp repeat Arabidopsis) a telomery (TTTAGGG)n - mohou se chovat jako satelitní DNA (micro-, mini-)
odbočka: sekvenční komplexita (~ množství nesené informace) Repetitivní: AAAAAAAAAAAAAAAAAAAAA komplexita 1 (21xA) ATCATCATCATCATCATCATC komplexita 3 (7xATC) (množství informace u kódující sekvence?) Unikátní: ATCGTATCGCGATTTTAACGT komplexita 21 (1xAT…) repetitivnost/unikátnost záleží na velikosti posuzovaného „okna“ (= velikosti analyzovaných fragmentů DNA)
Sekvenční komplexita rostlinných genomů vysoce repetitivní sekvence středně repetitivní sekvence jedinečné sekvence Sekvenční komplexita
Ukázka zastoupení repetitivní DNA u soji a silenky (klastry sekvenčně příbuzných repetic) Silene latifolia LTR/Gypsy, Copia = rodiny retrotranspozónů clDNA = chloroplastová DNA (částečně i integrována v jádře)
Reasociační kinetika - měření komplexity genomu (analýzy genomů nejen v předsekvenační době) DNA fragmentována na 300 - 500 bp fragmenty a denaturována průběh reasociace sledován v čase (chromatografické oddělení ss a ds DNA) analýzou kinetiky (Cot křivek) lze zjistit podíl jedinečných a opakovaných sekvencí: princip: vzácné sekvence reasociují pomaleji než hojné (nižší pravděpodobnost setkání)
Reasociační kinetika - vliv komplexity DNA
Eukaryotické genomy zpravidla obsahují tři frakce sekvencí lišící se komplexitou vysoce repetitivní = nízká komplexita středně repetitivní unikátní sekvence = vysoká komplexita
Reasociační kinetika malých a velkých genomů jedinečné sekvence středně repetitivní sekvence vysoce repetitivní sekvence (Westhoff: Molecular plant development, 1998)
Rozdíly v uspořádání velkých a malých genomů velké genomy: geny přítomné v „gene-rich“ ostrovech mezi dlouhými úseky nekódující, zpravidla repetitivní DNA
Rekonstrukce postupné kumulace mobilních elementů v několika lokusech genomu kukuřice Ve sledovaném úseku u prosa nejsou žádné transpozóny (TE), u kukuřice tvoří 60 % délky
Repetitivní sekvence lze detekovat in situ (FISH) (dnes i unikátní sekvence) Centromerové 180 bp A.th. telomer. rep. žita (TTTAGGG)n subtelomer. rep. žita 45S rDNA Crocus (Heslop-Harrison, Plant Cell 12:617, 2000)
Sekvenování rostlinných genomů http://genomevolution.org/wiki/index.php/Sequenced_plant_genomes Stav k 4/13 – (šedivě méně kompletní genomy)
Sekvenování velkých genomů sekvenování po částech (chromozómech) sekvenování nemetylované DNA (= transkripčně aktivní) sekvenování ESTs
Expressed Sequence Tags (ESTs) odbočka – definice pojmů: Expressed Sequence Tags (ESTs) - krátké sekvenované úseky cDNA (300-600 nt) - úseky transkribovaných genů (primárně z mRNA) alternativní zdroj kódujících sekvencí u velkých genomů (rychlé a levné) - velmi redundantní, ale současně neúplné
Příprava EST knihovny - mRNA - RT s oligoT primerem – cDNA - štěpení heteroduplexu RNázouH - syntéza 2. vlákna cDNA štěpení restriktázou - ligace adaptorů klonování sekvenace
Problémy (slabiny) EST knihoven: (v porovnání s genomovou knihovnou) - často jen fragmenty genů (někdy lze poskládat celé) - různé hladiny transkriptů (redundance x absence) - genová exprese regulována orgánově, časově, vývojově, environmentálně, … - chybí regulační sekvence (promotory, introny,...) Výhody: jen transkribované (=aktivní) geny, bez intronů (kombinací s genomovou – identifikace reg. sekvencí), …
Odbočka: Arabidopsis thaliana životní cyklus modelové rostliny 1 týden 3 týdny 4 týdny 6 týdnů
Genom Arabidopsis: 125 Mbp geny ESTs TE geny ESTs TE = transposible elements geny ESTs TE geny ESTs TE geny ESTs TE vysoká hustota nízká hustota
Predikce počtu genů v genomu
Genom Arabidopsis - statistika Feature Value DNA molecule Chr.1 Chr.2 Chr.3 Chr.4 Chr.5 SUM Length (bp) Top arm (bp) Bottom arm (bp) Base composition (%GC) Overall Coding Non-coding Number of genes Gene density (kb per gene ) Average gene Average peptide Exons Number Total length (bp) Average per gene Average size (bp) With ESTs (%) Number of ESTs 29,105,111 14,449,213 14,655,898 33.4 44.0 32.4 6,543 4.0 2,078 446 35,482 8,772,559 5.4 247 60.8 30,522 19,646,945 3,607,091 16,039,854 35.5 32.9 4,036 4.9 1,949 421 19,631 5,100,288 259 56.9 14,989 23,172,617 13,590,268 9,582,349 35.4 44.3 33.0 5,220 4.5 1,925 424 26,570 6,654,507 5.1 250 59.8 20,732 17,549,867 3,052,108 14,497,759 44.1 32.8 3,825 4.6 2,138 448 20,073 5,150,883 5.2 256 61.4 16,605 25,53,409 11,132,192 14,803,217 34.5 32.5 5,874 4.4 1,974 429 31,226 7,571,013 5.3 242 22,885 115,409,949 25,498 27,206 protein cod. + MIR, … 132,982 33,249,250 105,773
Většina rostlinných genů tvoří genové rodiny Počet členů rodiny (paralogů) genové rodiny jsou často tandemově uspořádané, ale i rozptýlené po genomu duplikovány jsou celé úseky chromozómů Arabidopsis (odráží dávné duplikace) tandemové repetice z blízkých i vzdálených paralogů (rekombinací)
Homologie - orthology vs. paralogy Orthologní geny = geny u různých organismů, které jsou přímými potomky genu přítomného u společného předka těchto organismů Species A Species B Ancestral Species Gene A Gene A” Gene A’ Paralogní geny = geny, které se duplikovali u daného druhu Species A Gene A” Gene A’” Ancestral Species Gene A Paralogous genes Species B Gene A’
Mechanismy zmnožení genů (zvýšení počtu paralogů) tandemové duplikace transpozice segmentální duplikace celogenomové duplikace
Jak se liší geny v genomech různých druhů? Geny Genové rodiny Arabidopsis x Populus – značný překryv (cca 1,5 x více paralogů u topolu) (Arabidopsis + Populus) x Oryza – mnoho genů specifických pro jednoděložné 31
Arabidopsis je dávný polyploid (jako zřejmě většina rostlin) Duplikované úseky chromosómů tvoří 60 % genomu (67.9 Mb)
Polyploidie - polyploidizace výrazně zvyšuje plasticitu genomu - významná role v evoluci (nejen rostlin) - paleopolyploidie - neopolyploidie – nedošlo k významné diploidizaci - allopolyploidie x autopolyploidie (triploidní most) Výhody polyploidie: vyšší plasticita, neofuncionalizace (hlízkové baktérie, dužnaté plody, ….)
Zmnožení chromozomálních sad - polyploidizace n = x = 4 n = x = 4 n = x = 4 n = x = 7 x x - splynutím neredukovaných gamet - „triploidní most“ (neredukované gamety triploida) spontánní zdvojení (endoreduplikace) 2n = 4x = 16 2n = 4x = 22 autopolyploidie allopolyploidie Podobná frekvence obou typů u polyploidních rostlinných druhů
Zdvojení chromozómů je nutné pro meiózu (nejsou-li druhy blízce příbuzné se stejným počtem chromozómů) species A species B X sterile fertile Genome duplication Přednostní párování homologních chromozómů Mohou párovat i homeologní = příbuzné, ale pocházející od různých rodičů (u vzdálených hybridů)
Příklad allopolyploidních genomů Brassica sp. Druh Česky Karyotyp Genom Brassica rapa Brukev řepák 2n = 2x = 20 A B. nigra B. černohořčice 2n = 2x = 16 B B. oleracea B. zelná 2n = 2x = 18 C B. juncea B. sítinovitá 2n = 4x = 36 AB B. napus B. řepka 2n = 4x = 38 AC B. carinata B. kýlnatá 2n = 4x = 34 BC Brassica nigra Brassica rapa Brassica olarecea Brassica carinata Brassica juncea Brassica napus BB AABB AA AACC BBCC CC allopolyploidi
Polyploidizace v evoluci rostlin
Datování celogenomových duplikací dle počtu synonymních mutací na synonymní místo - Ks Phe Leu Met Val Ks=3/2,66 UUU CUA AUG GUU UUC UUG AUG GUU 0 0 1/3 1/3 0 1 0 0 0 0 0 1 Počet genů Porovnání dvojic paralogních genů Peaky indikují celogenomové duplikace Ks Fawcet et al. 2013
Polyploidizace v evoluci rostlin mnoho druhů neopolyploidních, zřejmě všechny paleopolyploidní aneuploidní varianty - po allopolyploidizaci časté, př. pšenice - hexaploid: stabilní linie s chybějícím raménkem chromozómu většina rostlin (všechny semenné) opakovaně v evoluci polyploidních: Proč? Jaké jsou výhody?
Osudy zmnožených genů se liší – teorie genové rovnováhy (gene dosage balance) geny jejichž produkty přímo interagují (signální dráhy, podjednotky komplexů,.. tzv. „connected genes“) se snáze udrží po celogenomových duplikacích - ztráta či dílčí zmnožení jedné z komponent vyvolá genovou nerovnováhu (v hladinách produktů!), která snižuje fitness - celý zmnožený komplex pak může být funkčně specializován a zvyšovat komplexitu organismu (neofunctionalization, subfunctionalization) - sekundární funkce zřejmě již přítomna u předka, - duplikace umožní adaptivní evoluci obou funkcí bez selekčních zábran (nutnosti zachování primární funkce) - Escape from adaptive conflict - EAC model u ostatních genů je tomu naopak – tyto geny se snáze ztratí po celogenomových duplikacích a lépe se udrží po případném dílčím zmnožení
ztráta často nebývá takto (↑) rovnoměrná na obou kopiích po celogenomové duplikaci se postupně velká část duplikovaných genů ztrácí (viz teorie genové rovnováhy) ztráta často nebývá takto (↑) rovnoměrná na obou kopiích zřejmě často epigenetické označení jedné z kopií (metylace - řepka) přednostní ztráty genů a mutageneze u metylované kopie ale někdy probíhá i genová konverze a homogenizace (oprava dle jiné kopie genu!) de novo kříženci (~ řepka olejka) – přestavby přednostně v homeologních úsecích chromozómů, ale bez preference rodičovského genomu (homeologní = homologní, přítomné v jednom genomu, ale původem od různých rodičů)
Změny bezprostředně po vzniku allopolyploida: změny v metylaci DNA ztráty částí či celých chromozómů (aneuploidie – problémy s fertilitou) často dochází k aktivaci TE exprese homeologních genů zpravidla není v hybridu aditivní - redukce může být asymetrická (vzhledem k rodičům) - transkriptom bývá celkově redukován více než genom orgánové rozrůznění exprese (vzhledem k rodičovskému původu) nová místa exprese nová regulace - „divergent resolution“ - speciace (ztráty různých kopií duplikovaných genů u různých jedinců - letalita v F2 generaci (1/16) u esenciálních g. – může být základem reprodukční bariéry, sympatr. sp.
Tvorba haploidních rostlin přeprogramováním vývoje buněk samčího či samičího gametofytu in vitro – netvoří se gamety, ale dochází k procesu analogickému embryogenezi (ale ne ze zygoty) - zpravidla z prašníkových kultur (nezralých mikrospor) = androgeneze - možno i ze samičího gametofytu = gynogeneze haploidní rostliny jsou sterilní spontánně či kolchicinem lze navodit endoreduplikaci (replikaci bez mitózy) - vznikají dihaploidní kompletně homozygotní jedinci androgeneze (pylová embryogeneze) u řepky
Počet chromozómů – význam? - jiné vazbové skupiny (možná výhoda?) (rekombinovatelnost genů) - omezení fertility hybridů, … Velikosti chromozómů u rostlin 2,4 Mb Genlisea 30 Mb Arabidopsis 800 Mb Triticum
Počty chromozómů Extrémy: Vnitrorodové rozdíly: Luzula sp. (bika): Haplopappus gracilis: 2n = 4 Sedum suaveolens: 2n = cca 640 Vnitrorodové rozdíly: Luzula sp. (bika): 2n = 6 až 66 holocentrické chromozómy průměrná velikost chromozómu se mezi druhy liší až 60x L. pilosa L. elegans (Cullis, 2004)
B chromozómy u rostlin nepárové chromozómy u některých druhů (asi 1500, např. kukuřice) nenesou zpravidla geny kódující proteiny zpravidla negativně ovlivňují fitness rostliny (fertilitu) - nejsou přítomny u všech jedinců v populaci - parazitická DNA (?)
Počet chromozómů a velikost genomu 1n chromosome number
Genomy rostlin se podobají (i přes rozdílné počty chromozómů) Paterson et al., Plant Cell 12: 1523-1539, 2000
Termín „syntenie“ se občas mylně užívá pro označení kolinearity Syntenie = přítomnost orthologních lokusů u dvou druhů na stejném chromozómu A’ C’ Species A Species B Ancestral Species B’ C” B” A” A B C Kolinearita = skupina lokusů je u dvou druhů přítomna ve stejném pořadí A’ B’ Species A Species B Ancestral Species C’ A” B” C” A B C
Makro-kolinearita vs. mikro-kolinearita Makro- i mikrokolinearita: In the 2 organisms being compared on the left, not only are the genes A, B, and C syntenic, but all the genes in between are as well. Zachována pouze makrokolinearita: In the 2 organisms being compared on the right, although genes A, B, and C appear syntenic, other genes in between are not. A t t t k u u u n B B v v B’ B’ v g w w w o x x x q C’ C’ C C • kolinearita (daná společným původem) se v průběhu evoluce postupně vytrácí
Mikro-kolinearita v NOD lokusu mezi vzdálenými druhy bez zřejmé makro-kolinearity At – Arabidopsis, Pt – Populus, Lj – Lotus, Mt – Medicago, Os - Oryza
Studium kolinearity Významné pro: - analýzy původu genů a fylogeneze velkých skupin - analýzy historických změn velikosti a uspořádání genomů (polyploidizace) - identifikace genů odolných vůči eliminaci po duplikaci (zvyšování komplexity, plasticity) - hledání konkrétních genů v genomech nesekvenovaných rostlin - rekonstrukce podoby ancestrálních genomů Příčiny odlišností příbuzných genomů: - přeskupování mobilními elementy a rekombinací - inverze, delece, duplikace, …. - eliminace a mutageneze duplikovaných sekvencí
Porovnání genetické mapy rajčete a lilku
Kolineární úseky u různých druhů se liší především zastoupením repetitivní DNA
Kolinearita (syntenie) genomů lipnicovitých
Shrnutí současnou podobu rostlinného genomu utvářejí opakované cykly celkových (dílčích) duplikací a následných redukcí a modifikací (funkční diverzifikací duplikovaného) → zvyšování komplexity a plasticity není genomů bez redundance rostlinné genomy jsou dodnes velice dynamické obrovský podíl tvoří repetitivní DNA
Allopolyploidní tabáky – změny v obsahu DNA 57