PROTEIN MASS FINGERPRINT
DNA/RNA MASS FINGERPRINT
SNPs Single Nucleotide Polymorphism Polymorfimus DNA, kdy se jedinci nebo druhy liší v jedné nukleotidové záměně AAGCCTA AAGCTTA V tomto případě mluvíme o alelách C a T. Téměž všechny SNPy mají jen 2 alely. Genom dvou lidí se liší zhruba v 3 mil. bazí (ne všechno jsou SNP).
SNPs
SNPs genotypizace Molecular beacon Hybridizační metody Enzymatické metody Metody založené na fyzikálních vlastnostech DNA Hybridizační metody
SNPs – hybridizační metody lidských SNPs
SNPs – enzymatické metody Primer extension – např. Infinium (Illumina) infinium_hd_assay.ilmn
SNP – OSTATNÍ METODY _ _ _ denaturacePCRrenaturace vertikální elektroforéza vizualizace Single-Strand Conformation Polymorphism
SROVNÁNÍ METOD Fingerprinting (“otisk prstu DNA”) – souhrné označení pro metody poskytující velice variabilní elektroforetické vzory – VNTR RFLP, RAPD, AFLF. Čistě distanční Znakové Proteinové DNA Protein mass fingerprinting
SROVNÁNÍ METOD MetodaDNA hybri Dizace Mass fingerpti nting Mikro satelity RFLF (VNTR) SINERAPDAFLPSNP Počet lokusů VšechnyMnohoJedenMnohoJedenMnoho Jeden / mnoho Repliko vatelnost RůznáVysoká Různávysoká Povaha znaků DistanceKodomin antní Kodomi nantní? Vzácná událost Domi nantní Kodomi nantní? Kodo minantní RozlišeníStřednívysokéVysoké NízkéStředníVysoké Jedno duchost provedení TěžkéJedno Duché TěžkéJedno duché TěžkéJedno duché Střední- Doba trvání StředníKrátkáDlouháKrátkáDlouháKrátká -
ODHAD GENETICKÉ VZDÁLENOSTI
DISTANCE Z PODOBNOSTI VZORŮ RAPD/RFLP Koeficient genetické vzdálenosti dle. Nei a Li 1979, PNAS 76, 1979 Pro každou dvojici (x, y) spočteme všechny fragmenty (M x, M y ) a dále fragmenty vyskytující se v obou elektroforetogramech ( M xy ) Vypočteme podíl shodných fragmentů I = 2M xy /(M x + M y ) a z něj distanci D= 1- I X Y
DISTANCE Z FREKVENCE ALEL Rogersova vzdálenost (pro všechny alely i lokusu v populacích X A a X B ) D= (0,5 Σ(x Ai - x Bi ) 2 ) 0,5 Vzdálenost Cavali-Svorza a Edwardse (1967) (pro všechny alely u lokusu v populacích X a Y) V případě, že použijeme více lokusů bude celková vzdálenost průměrem vzdáleností lokusů. Reynoldsova distance (1983) nebo Neiova distance (1972, 1978) berou v poraz biologické procesy.
VÝPOČET „p“ p = ΔTm. 0,01 (0,015) p = podíl rozdílných nukleotidů mezi sekvencemi 2 taxonů Odhad p z reasociační kinetiky DNA-DNA hybridizace p = n d /n AATGTAGGAATCGC ACTGAAAGAATCGC p = 3/14 = 0,21
FREKVENCE SUBSTITUCÍ JE VYŠŠÍ NEŽ „p“ K = 12, p = 3 Jednoduchá substituce Vícenásobná substituce Zpětná substituce CTCT TCTC GTCTCT Koincidence ACTGAACGTAACGC Vidíme jen 3 rozdíly (p=3/14), ale ve skutečnosti došlo ke dvanácti substitucím (D = 12/14).
Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA 0,95 PROTEINY SUBSTITUČNÍ SATURACE p
Sekvence A Sekvence B ut Substituční rychlostČasový interval Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC ODHAD POČTU SUBSTITUCÍ
A G C T u/3 u = substituční rychlost u/3 = rychlost substituce za jednu konkrétní bázi (např. A -> G) u/3 Rychlost substituce za kteroukoli bázi i sebe sama 4/3 u Očekávaný počet substitucí za čas t 4/3 ut Jukes-Cantor příklad korekce na mnohonásobné substituce
Poissonovo rozdělení Rozdělení počtu výskytu málo pravděpodobných jevů Pravděpodobnost, že dojde právě ke k událostem je f(k, ℷ ) = ( ℷ k e - ℷ )/k! ∞ 25 let → 20 substitucí…pro 5 let ℷ =4 ℷ =4 Pravděpodobnost, že k žádné události nedojde (k=0) je e - ℷ
A G C T u/3 Pravděpodobnost, že za čas t k žádné události nedojde e -4/3 ut Pravděpodobnost, že za čas t k události dojde 1- e -4/3 ut Pravděpodobnost, že dojde ke konkrétní události P (C|A) = 1/4 (1- e -4/3 ut ) Pravděpodobnost, že dojde ke změně p = 3/4 (1- e -4/3 ut ) u/3 Jukes-Cantor příklad korekce na mnohonásobné substituce
Sekvence A Sekvence B ut Substituční rychlostČasový interval Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC p = počet neshodných míst/ délka sekvence 1-p = „sequence identity“ ODHAD POČTU SUBSTITUCÍ
A G C T u/3 Pravděpodobnost, že dojde ke změně p = 3/4 (1- e -4/3 ut ) Korigovaný počet substitucí D = ut = -3/4 ln(1- 4/3 p) u/3 Jukes-Cantor příklad korekce na mnohonásobné substituce V(D) = (p(1 -p))/(L(1 - 4/3 p) 2 ) L = délka sekvence Rozptyl D:
A G C T u/3 Korigovaný počet substitucí D = ut = -3/4 ln(1- 4/3 p) u/3 Jukes-Cantor příklad Příklad naší sekvence: D= -3/4 ln(1- 4/3 * 0,21) D= 0,246
Jukes-Cantor Obecně použitelné odvození 4/3 ut u/3 -u u/3 -u u/3 -u A G Pravděpodobnost, že dojde ke konkrétní události P (C|A) = 1/4 (1- e -4/3 ut ) CT A G C T
Jukes-Cantor Součet řádku je 1 4/3 ut u/3 -u u/3 -u u/3 -u A GCT A G C T Suma = 1
Jukes-Cantor Nekonečně vzdálené sekvence se podobají z 1/4 Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA p Sekvence A Sekvence B ut=∞ 4/3 ut
Jukes-Cantor Je symetrický u/3 -u u/3 -u u/3 -u A GCT A G C T Sekvence A Sekvence B
Jukes-Cantor Je symetrický u/3 -u u/3 -u u/3 -u A GCT A G C T Sekvence A Sekvence B
Kimura 2P Kimura 2 parametrový DALŠÍ MODELY A G C T α ββ β β α
Kimura 2P Kimura 2 parametrový DALŠÍ MODELY A G C T α ββ β β α
A G C T α ββ β β α Kimura 2P Kimura 2 parametrový DALŠÍ MODELY D = 0,5 ln(a) + 1/4 ln(b) a = 1/(1 - 2P - Q) b = 1/(1 -2Q) P – podíl transic Q – podíl transverzí V(D) = [a 2 P + c 2 Q -(aP +cQ) 2 ]/L c = (a + b)/2 L = délka sekvence Rozptyl D:
A G C T α ββ β β α Kimura 2P Kimura 2 parametrový DALŠÍ MODELY D = 0,5 ln(a) + 1/4 ln(b) a = 1/(1 - 2P - Q) b = 1/(1 -2Q) Příklad naší sekvence: P=2/14=0,14 Q=1/14=0,07 a = 1/(1 – 2*0,14 – 0,07) = 1,54 b = 1/(1 -2*0,07) = 1,16 D = 0,5 ln(1,54) + 1/4ln(1,16)=0,254
DALŠÍ MODELY Rovnovážné frekvence nukleotidů π A π C π G π T F84
A G C T α εβ δ γ ζ GTR General time reversible + DALŠÍ MODELY Rovnovážné frekvence nukleotidů π A π C π G π T Parametry: frekvence (rychlost) záměn ( αβγδεζ ) a frekvence nukleotidů ( π A π C π G π T ) se odvozují z analyzovaných sekvencí.
RŮZNÉ MODELY FUNGUJÍ RŮZNĚ Skutečný počet substitucí Odhad počtu substitucí
d xy = -ln (det F xy ) Sekvence A Sekvence B F xy = [ ] 0,2490,0060,0270,009 0,0030,1660,0010,018 0,0270,0060,2560,004 0,0060,0210,0090,194 Alignment 900 pozic d xy = -ln (det F xy ) = -ln (0.002) = 6,216 LogDet distance
JAKÉ DISTANCE POUŽÍVAT? Modely s větším počtem parametrů (GTR) jsou flexibilnější a většinou přesnější než metody jednoduché. Potřebují však velké množství parametrů a distance jimi vypočítané mají větší rozptyl. Pro kratší úseky proto dávají horší výsledky. Simulace ukázala, že pro D< 0,5 dávají poměrně přesné výsledky i nejjednoduší metody (Jukes-Cantor, Kimura). Pro větší distance (a dostatečně dlouhé sekvence) je lépe použít složitější modely (GTR).