Jak získáváme znaky pomocí sekvenace unikátních lokusů

Slides:



Advertisements
Podobné prezentace
OZD: Hašování RNDr. Michal Žemlička.
Advertisements

LOGISTICKÉ SYSTÉMY 14/15.
Obecně použitelné odvození
Single Nucleotide Polymorphism
Fylogeografie Studuje geografickou strukturaci populací Navazuje na evoluční biologii, ochranu živ. prostř., taxonomii.
Testování statistických hypotéz
Cvičení 6 – 25. října 2010 Heteroskedasticita
ZÁKLADY EKONOMETRIE 2. cvičení KLRM
Zarovnávání biologických sekvencí
FORMALIZACE PROJEKTU DO SÍŤOVÉHO GRAFU
LOGISTICKÉ SYSTÉMY 8/14.
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Získávání informací Získání informací o reálném systému
PROTEIN MASS FINGERPRINT. DNA/RNA MASS FINGERPRINT.
Odhad genetických parametrů
CHYBY MĚŘENÍ.
Jak se pozná nejlepší strom?
Základy ekonometrie Cvičení září 2010.
Shluková analýza.
Odhady parametrů základního souboru
Stanovení genetické vzdálenosti
Využití v systematické biologii
Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA 0,95 PROTEINY SUBSTITUČNÍ SATURACE p.
Genetická diverzita hospodářských zvířat
Shluková analýza.
Účel procedury: První a závazný krok jakékoli seriozní komparativní studie. Umožňuje vyloučit možnost, že distribuce studovaného znaku (vlastnosti, vzorce.
Lineární regrese.
Lineární regresní analýza
Bioinformatika Predikce genů, Fylogenetická analýza
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo.
Experimentální fyzika I. 2
2. Vybrané základní pojmy matematické statistiky
JAK NAJÍT NEJLEPŠÍ STROM
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Vyhledávání vzorů (template matching)
„AFLP, amplified fragment length polymorphism“
Monte Carlo simulace hexameru vody Autor: Bc. Lenka Ličmanová Vedoucí práce: Mgr. Aleš Vítek Seminář KFY PŘF OU.
Statistické odhady (inference) Výběr Nepotřebujeme sníst celého vola jenom proto, abychom poznali, že to jde ztuha. Samuel Johnson (anglický básník a.
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
Inferenční statistika - úvod
Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.
SNPs Single Nucleotide Polymorphism Polymorfimus DNA, kdy se jedinci nebo druhy liší v jedné nukleotidové záměně AAGCCTA AAGCTTA V tomto případě mluvíme.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Odhady odhady bodové a intervalové odhady
Opakování na 3.písmenou práci 6.ročník
Obecně použitelné odvození
Homogenita meteorologických pozorování
Jak se pozná nejlepší strom?
Induktivní statistika
Induktivní statistika
Odhady parametrů základního souboru
Induktivní statistika
Fylogenetická evoluční analýza
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Neparametrické testy pro porovnání polohy
Kapitola 3: Centrální tendence a variabilita
Analýza kardinálních proměnných
Obecně použitelné odvození
Lineární regrese.
Jak získáváme znaky pomocí sekvenace unikátních lokusů
SUBSTITUČNÍ SATURACE 0,95 PROTEINY 0,75 DNA p
2. Vybrané základní pojmy matematické statistiky
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
39 ČTYŘÚHELNÍKY ROVNOBĚŽNÍKY.
Transkript prezentace:

Jak získáváme znaky pomocí sekvenace unikátních lokusů rEKAPITULACE Jak získáváme znaky pomocí sekvenace unikátních lokusů Sekvenace lokusu u taxonů, které chceme studovat 1. Přednáška Stažení homologních sekvencí od relevantních taxonů z databáze 2. přednáška Tvorba alignmentu 3. přednáška

alignment Mutliple sequence alignment (MSA) Kontrolní otázka: Co v alignmentu představuje jeden znak?

FINGERPRINT Kontrolní otázka: Co ve fingerprintu představuje jeden znak?

ODHAD GENETICKÉ VZDÁLENOSTI

Distance z podobnosti vzorů RAPD/RFLP Koeficient genetické vzdálenosti dle. Nei a Li 1979, PNAS 76, 1979 Pro každou dvojici (x, y) spočteme všechny fragmenty (Mx, My) a dále fragmenty vyskytující se v obou elektroforetogramech (Mxy) Vypočteme podíl shodných fragmentů I = 2Mxy/(Mx + My) a z něj distanci D= 1- I X Y

Distance z frekvence alel Rogersova vzdálenost (pro všechny alely i lokusu v populacích XA a XB) D= (0,5 Σ(xAi - xBi)2)0,5 Frekvence alel v jednom lokusu Alela Populace A Populace B 1 0,12 0,20 2 0,48 0,30 3 0,40 0,50 D= (0,5((0,12-0,20)2+(0,48-0,30)2+(0,40-0,50)2))0,5= (0,5(0,0064+0,0324+0,01))0,5= 0,156

Distance z frekvence alel Rogersova vzdálenost (pro všechny alely i lokusu v populacích XA a XB) D= (0,5 Σ(xAi - xBi)2)0,5 Vzdálenost Cavali-Svorza a Edwardse (1967) (pro všechny alely u lokusu v populacích X a Y) V případě, že použijeme více lokusů bude celková vzdálenost průměrem vzdáleností lokusů. Reynoldsova distance (1983) nebo Neiova distance (1972, 1978) berou v poraz biologické procesy.

VÝPOČET „p“ p = nd/n p = 3/14 = 0,21 p = ΔTm . 0,01 (0,015) p = podíl rozdílných nukleotidů mezi sekvencemi 2 taxonů p = nd/n AATGTAGGAATCGC ACTGAAAGAATCGC p = 3/14 = 0,21 Odhad p z reasociační kinetiky DNA-DNA hybridizace p = ΔTm . 0,01 (0,015)

FREKVENCE SUBSTITUCÍ JE VYŠŠÍ NEŽ „p“ ACTGAACGTAACGC C T G C T T T C Koincidence Jednoduchá substituce Zpětná substituce Vícenásobná substituce K = 12, p = 3 Vidíme jen 3 rozdíly (p=3/14), ale ve skutečnosti došlo ke dvanácti substitucím (D = 12/14).

SUBSTITUČNÍ SATURACE 0,95 PROTEINY 0,75 DNA p Počet pozorovaných rozdílů 0,75 DNA p Skutečný počet substitucí na jednu pozici

p NENÍ ADITIVNÍ Sekvence A Sekvence B Sekvence A Sekvence B

ODHAD POČTU SUBSTITUCÍ ut Sekvence A Sekvence B Substituční rychlost Časový interval Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC

příklad korekce na mnohonásobné substituce Jukes-Cantor příklad korekce na mnohonásobné substituce u = substituční rychlost u/3 = rychlost substituce za jednu konkrétní bázi (např. A -> G) A G C T u/3 Rychlost substituce za kteroukoli bázi i sebe sama 4/3 u Očekávaný počet substitucí za čas t 4/3 ut u/3

Rozdělení počtu výskytu málo pravděpodobných jevů Poissonovo rozdělení Rozdělení počtu výskytu málo pravděpodobných jevů 25 let → 20 substitucí…pro 5 let ℷ=4 ∞ ℷ=4 ℷ=4 ℷ=4 Pravděpodobnost, že k žádné události nedojde (k=0) je e -ℷ Pravděpodobnost, že dojde právě ke k událostem je f(k,ℷ) = (ℷk e-ℷ)/k!

příklad korekce na mnohonásobné substituce Jukes-Cantor příklad korekce na mnohonásobné substituce A G C T u/3 Pravděpodobnost, že za čas t k žádné události nedojde e -4/3 ut Pravděpodobnost, že za čas t k události dojde 1- e -4/3 ut Pravděpodobnost, že dojde ke konkrétní události P (C|A) = 1/4 (1- e -4/3 ut) u/3 Pravděpodobnost, že dojde ke změně Ds = 3/4 (1- e -4/3 ut) Očekávaný počet substitucí za čas t 4/3 ut

příklad korekce na mnohonásobné substituce Jukes-Cantor příklad korekce na mnohonásobné substituce Pravděpodobnost, že dojde ke změně Ds = 3/4 (1- e -4/3 ut) ut Sekvence A Sekvence B Substituční rychlost Časový interval Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC p = počet neshodných míst/ délka sekvence je odhadem Ds.

příklad korekce na mnohonásobné substituce Jukes-Cantor příklad korekce na mnohonásobné substituce Pravděpodobnost, že dojde ke změně Ds = 3/4 (1- e -4/3 ut) A G C T u/3 Korigovaný počet substitucí D = ut = -3/4 ln(1- 4/3 p) Rozptyl D: V(D) = (p(1 -p))/(L(1 - 4/3 p)2) L= délka sekvence u/3

Korigovaný počet substitucí D = ut = -3/4 ln(1- 4/3 p) Jukes-Cantor příklad A G C T u/3 Korigovaný počet substitucí D = ut = -3/4 ln(1- 4/3 p) Příklad naší sekvence: D= -3/4 ln(1- 4/3 * 0,21) D= 0,246 u/3

Obecně použitelné odvození Jukes-Cantor Obecně použitelné odvození A G C T -u u/3 u/3 u/3 A u/3 -u u/3 u/3 G u/3 u/3 -u u/3 C u/3 u/3 u/3 -u T 4/3 ut 4/3 ut Pravděpodobnost, že dojde ke konkrétní události P (C|A) = 1/4 (1- e -4/3 ut)

Jukes-Cantor Součet řádku je 1 A G C T -u u/3 u/3 u/3 A u/3 -u u/3 u/3 Suma = 1 4/3 ut 4/3 ut

Nekonečně vzdálené sekvence se podobají z 1/4 Jukes-Cantor Nekonečně vzdálené sekvence se podobají z 1/4 ut=∞ Sekvence A Sekvence B 4/3 ut 4/3 ut Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA p

Jukes-Cantor Sekvence A Sekvence B Je symetrický A G C T -u u/3 u/3

Jukes-Cantor Sekvence A Sekvence B Je symetrický A G C T -u u/3 u/3

DALŠÍ MODELY A G C T α β α Kimura 2P Kimura 2 parametrový

DALŠÍ MODELY A G C T α β α Kimura 2P Kimura 2 parametrový

DALŠÍ MODELY Kimura 2P A G C T D = 0,5 ln(a) + 1/4 ln(b) Kimura 2 parametrový A G C T α β α D = 0,5 ln(a) + 1/4 ln(b) a = 1/(1 - 2P - Q) b = 1/(1 -2Q) P – podíl transic Q – podíl transverzí Rozptyl D: V(D) = [a2P + c2Q -(aP +cQ)2]/L c = (a + b)/2 L= délka sekvence

DALŠÍ MODELY Kimura 2P A G C T D = 0,5 ln(a) + 1/4 ln(b) Kimura 2 parametrový A G C T α β α D = 0,5 ln(a) + 1/4 ln(b) a = 1/(1 - 2P - Q) b = 1/(1 -2Q) Příklad naší sekvence: P=2/14=0,14 Q=1/14=0,07 a = 1/(1 – 2*0,14 – 0,07) = 1,54 b = 1/(1 -2*0,07) = 1,16 D = 0,5 ln(1,54) + 1/4ln(1,16)=0,254

DALŠÍ MODELY F84 Rovnovážné frekvence nukleotidů πA πC πG πT

General time reversible DALŠÍ MODELY GTR General time reversible + A G C T α ε β δ γ ζ Rovnovážné frekvence nukleotidů πA πC πG πT Parametry: frekvence (rychlost) záměn (αβγδεζ) a frekvence nukleotidů (πA πC πG πT) se odvozují z analyzovaných sekvencí.

RŮZNÉ MODELY FUNGUJÍ RŮZNĚ Odhad počtu substitucí Skutečný počet substitucí

dxy = -ln (det Fxy) = -ln (0.002) = 6,216 LogDet distance dxy = -ln (det Fxy) Sekvence A Sekvence B Alignment 900 pozic Fxy =[ ] 0,249 0,006 0,027 0,009 0,003 0,166 0,001 0,018 0,027 0,006 0,256 0,004 0,006 0,021 0,009 0,194 dxy = -ln (det Fxy) = -ln (0.002) = 6,216

JAKÉ DISTANCE POUŽÍVAT? Modely s větším počtem parametrů (GTR) jsou flexibilnější a většinou přesnější než metody jednoduché. Potřebují však velké množství parametrů a distance jimi vypočítané mají větší rozptyl. Pro kratší úseky proto dávají horší výsledky. Simulace ukázala, že pro D< 0,5 dávají poměrně přesné výsledky i nejjednoduší metody (Jukes-Cantor, Kimura). Pro větší distance (a dostatečně dlouhé sekvence) je lépe použít složitější modely (GTR).

PROTEINOVÉ MODELY D = -19/20 ln(1- 20/19 p) Poissonův model: p - procento rozdílných aminokyselin Obdoba nukleotidového Jukes-Cantorova modelu předpokládá stejnou frekvenci všech typů záměn a stejnou frekvenci aminokyselin. D = -3/4 ln(1- 4/3 p)

P=eQt Pnaše=exQt =Px Qt = lnP PROTEINOVÉ MODELY PAM 001 – rozdíly v sekvencích proteinů odpovídající D=0,01. Matice se dá přepočítat na vyšší D umocněním, např. D=0,1 ~ M10 (PAM10) P=eQt Pnaše=exQt =Px Qt = lnP

PROTEINOVÉ MODELY Novější substituční matice (Q) odvozené ze skutečných proteinů LG (LG-F) WAG (WAG-F) JTT (JTT-F) mtREV (mtREV-F)

ODKUD SE BEROU RELATIVNÍ RYCHLOSTI SUBSTITUCÍ DNA – z počtu pozorovaných záměn v našich sekvencích Proteiny – z velkých empirických souborů sekvecí Sekvence A Sekvence B Proč se to dělá pokaždé jinak?

PŘESTÁVKA

FYLOGENETICKÉ STROMY

Anatomie stromu Vnitřní větev Vnitřní uzel (poslední společný předek) Terminální větev Vrcholový uzel (současnost) A B C D E F

Zakořeněný a nezakořeněný B C D E F

Co chceme u stromu zjistit Co chceme u stromu zjistit? Jaký má tvar (topologii) Jaké má délky větví Jak věrohodné je jeho větvení Kde je jeho kořen A B C D E F

JAK NAJÍT NEJLEPŠÍ STROM ?

Jak se pozná nejlepší strom? Strom, který „nejlépe vysvětlí“ naše data. Algoritmus – najde jen jeden strom postupným přidáváním sekvencí, klastrovací analýza UPGMA, Neighbour-joining (distanční metody). Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií.

Vycházíme z matice distancí A-B jsou taxony nebo jiné OTU (operation taxonomic units). A B C D - 0.5 0.45 0.15 0.55 0.4 0.35 Nejjednodušší algoritmickou metodou je shlukovací analýza UPGMA (Unweighted Pair Group Method with Arithmetic mean)

UPGMA 1) Najdeme v tabulce nejmenší hodnotu (v tomto případě dBC) - 0.5 0.45 0.15 0.55 0.4 0.35 2) Dvě OTU (druhy) s nejmenší vzájemnou vzdáleností spojíme do jedné OTU a vypočítáme vzdálenost této OTU od ostatních: D(BC)A = (DAB + DAC)/2 = (0,5 + 0,45)/2 = 0,475 D(BC)D = (DBD + DCD)/2 = (0,4 + 0,35)/2 = 0,375 (obecně: aritmetický průměr ze vzdáleností všech dvojic jednoduchých OTU (druhů), kde každý člen dvojice pochází z jedné ze spojovaných OTU) B C

UPGMA 3) Z přepočítaných hodnot vytvoříme novou tabulku. BC D - 0.475 0.55 0.375 4) Celý postup opakujeme. Nejmenší distance je tentokrát mezi D a BC. Proto D připojíme k BC. Vypočítáme vzdálenost BCD od A. D(BCD)A = (DAB + DAC + DAD)/3 = (0,5 + 0,45 + 0,55)/3 = 0,5 B C D A

UPGMA B C D A DBC = 0,15 D(BC)D = 0,375 D(BCD)A = 0,5 Výpočet délek větví: DBC = 0,15 DBC/2 D(BC)D = 0,375 D(BCD)A = 0,5 B D(BC)D/2 - DBC/2 DBC/2 D(BCD)A/2 - D(BC)D/2 C D(BC)D/2 D D(BCD)A/2 A

UPGMA B C D A DBC = 0,15 D(BC)D = 0,375 D(BCD)A = 0,5 Výpočet délek větví: DBC = 0,15 0,075 D(BC)D = 0,375 D(BCD)A = 0,5 B D(BC)D/2 - DBC/2 0,075 D(BCD)A/2 - D(BC)D/2 C D(BC)D/2 D D(BCD)A/2 A

UPGMA B C D A DBC = 0,15 D(BC)D = 0,375 D(BCD)A = 0,5 Výpočet délek větví: DBC = 0,15 0,075 D(BC)D = 0,375 D(BCD)A = 0,5 B 0,1125 0,075 D(BCD)A/2 - D(BC)D/2 C 0,1875 D D(BCD)A/2 A

UPGMA B C D A DBC = 0,15 D(BC)D = 0,375 D(BCD)A = 0,5 Výpočet délek větví: DBC = 0,15 0,075 D(BC)D = 0,375 D(BCD)A = 0,5 B 0,1125 0,075 C 0,0625 0,1875 D 0,25 A

UPGMA Je to nejjednodužší metoda konstrukce fylogenetických stromů umí strom zakořenit Předpokládá, že substituční rychlost je konstantní, takže distance (D) je přímo úměrná času (t), naprosto přesně platí molekulární hodiny Proto předpokládá, že distance a strom je ultramerický, všechny dnešní taxony „dosubstituovaly“ stejně daleko B C D A

UPGMA Tyto předpoklady jsou však téměř vždy porušeny Pokud jsou předpoklady porušeny výrazně metoda se prostě splete a vytvoří nesprávný strom Má tendenci posouvat divergentnější sekvence blíže ke kořeni stromu – artefakt přitahování dlouhých větví (LBA) LBA je jedno z největších úskalí molekulární fylogenetiky

UPGMA 0,2 B 0,1 A B C D - 0,8 0,9 0,5 0,6 0,4 0,3 C 0,1 0,1 D 0,4 A

UPGMA 0,2 B 0,2 B 0,1 0,05 0,3 C 0,2 0,1 0,13 D 0,1 0,25 D C 0,4 0,383 A A

Nejmenší čtverce (least squares) 1. Známe genetickou vzdálenost pro všechny páry sekvencí. A B A B C D - 0.5 0.45 0.15 0.55 0.4 0.35 A C A D B C B D C D

Nejmenší čtverce (least squares) B 2. Vezmeme první topologii a vyzkoušíme, jak dobře do ní distance pasují. Měníme délky větví topologie tak aby pasovali co nejlépe. Nejlepší skóre si zapamatujeme. A C A D B C B D C D A C D B Q = ∑ ∑wij (Dij - dij)2 n n i=1 j=1 Skóre

Nejmenší čtverce (least squares) 3. Vezmeme další topologii a určíme její skóre. A B A C A D 4. Projdeme všechny topologie, co nás napadnou. Tu s celkově nejlepším skóre vybereme. B C B D C D A B D Q = ∑ ∑wij (Dij - dij)2 n n i=1 j=1 C Skóre

Nejmenší čtverce (least squares) 0,2 1 2 0,2 B B 0,1 0,05 A B C D - 0,8 0,9 0,5 0,6 0,4 0,3 0,1 C 0,2 0,13 D 0,1 D 0,25 C 0,4 0,383 A A Q1= (0,8-0,8)2+(0,9-0,9)2+(0,6-0,6)2+(0,5-0,5)2 +(0,4-0,4)2+(0,5-0,5)2= 0,0 Q2= (0,8-0,763)2+(0,9-0,763)2+(0,6-0,763)2 +(0,5-0,5)2+(0,4-0,4)2+(0,5-0,5)2= 0,046707 Nejmenší čtverce garantují nalezení správného stromu jsou-li dobře spočítané distance.

Minimální evoluce (minimum evolution) Délky větví na topologiích optimalizujeme úplně stejně jako v případě „nejmenších čtverců“, ale topologie vzájemně porovnáváme podle součtu délek všech větví. Q = ∑ ∑ Dij n n i=1 j=1 Vybereme tu s nejmenším součtem.

Minimální evoluce (minimum evolution) 0,2 1 2 0,2 B B 0,1 0,05 Q = ∑ ∑ Dij n n i=1 j=1 0,3 0,1 C 0,2 0,13 D 0,1 D 0,25 C 0,4 0,383 A A Q1= 0,2+0,3+0,1+0,1+0,1+0,4= 1,2 Q2= 0,2+0,2+0,05+0,25+0,13+0,383=1,213

Neighbor-joining Algoritmizovaná „minimum evolution“ postupně rozkládáme hvězdicový strom (star decomposition) shlukováním nejbližších taxonů tak, aby se v každém kroku co maximálně zmenšila celková délka stromu.

Neighbor-joining ui = ∑ Dij /(n-2) B A C D n j: j ≠1 0,8 0,9 0,5 0,6 0,4 A C D ui = ∑ Dij /(n-2) n j: j ≠1 uA = (0,8+0,9+0,6)/2=1,15 uB = (0,8+0,5+0,4)/2=0,85 uc = (0,9+0,5+0,5)/2=0,95 ud = (0,6+0,4+0,5)/2=0,75 nDAB = DAB- uA – uB = 0,8-1,15-0,85=-1,2 A B C D - -1,2 -1,3

Neighbor-joining B A X C D vB = ½ DBC+1/2(uB - uC) = -1,2 -1,3 X C D vB = ½ DBC+1/2(uB - uC) = ½ 0,5+1/2(0,85 – 0,95) = 0,2 B A 0,2 X BC vc = ½ DBC+1/2(uC - uB) = ½ 0,5+1/2(0,95 – 0,85) = 0,3 0,3 C D DA(BC) = (DAB + DAC - DBC)/2 = 0,6

Neighbor-joining ui = ∑ Dij /(n-2) B A X C D n BC D - 0,6 0,2 0,2 0,5 X BC 0,3 0,1 C 0,1 D ui = ∑ Dij /(n-2) n j: j ≠1 vA = ½ DAD+1/2(uA - uD) = ½ 0,6+1/2(1,2 – 0,8) = 0,5 uA = 0,6/1+0,6/1=1,2 uD = 0,6/1+0,2/1=0,8 vD = ½ DAD+1/2(uD - uA) = ½ 0,6+1/2(0,8 – 1,2) = 0,1 vX(BC) = (DA(BC) + DD(BC) - DAD)/2 = 0,1

= Neighbor-joining B B A C D C D A 0,2 B B A 0,1 = 0,2 0,3 0,1 0,1 C 0,5 0,3 0,1 D 0,1 C D 0,4 A Neighbor-joining stejně jako nejmenší čtverce garantuje nalezení správného stromu jsou-li dobře spočítané distance.