Diskriminační analýza. Tibetské lebky Následující data byla shromážděna plukovníkem L.A. Waddellem v severovýchodním a východním Tibetu. Podle Moranta.

Slides:



Advertisements
Podobné prezentace
Testování statistických hypotéz
Advertisements

Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Úvod do analýzy rozptylu
Testování parametrických hypotéz
Jednovýběrové testy parametrickch hypotéz
Testování statistických hypotéz
F-test a dvouvýběrový t-test (oba testy předpokládají normalitu dat)
Lineární regresní analýza Úvod od problému
ZPRACOVÁVÁME KVANTITATIVNÍ DATA II.
Statistická chyba a hladina statistické významnosti
Morfologická křivka kmene
Mise Mars Osídlení. Mise Mars Náš celý komplex se skládá ze čtyř budov, z kyslíkového dolu, z pěti raket, ze solárního panelu a ze dvou nádrží na kyslík.
t-rozdělení, jeho použití
Kalibrační křivka, produkce charmu v EAS
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Testování hypotéz (ordinální data)
Analýza způsobilosti procesů a výrobních zařízení
Testování hypotéz přednáška.
Statistická chyba a hladina statistické významnosti
Varianty výzkumu Kroky výzkumu Výběrový soubor
Obsah statistiky Jana Zvárová
Testování hypotéz vymezení důležitých pojmů
Analýza dat.
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Kvantitativní metody výzkumu v praxi (KMVP) 0. Poučení z minulých ročníků a novinky od ZS 2013 (2011) poslední aktualizace Jiří Šafr jiri.safr(at)seznam.cz.
Sociologický výzkum.
Řízení a supervize v sociálních a zdravotnických organizacích
Inference jako statistický proces 1
ZÁKLADNÍ SOUBOR Základní soubor (populace) je většinou myšlenková konstrukce, která obsahuje veškerá data, se kterými pracujeme a není vždy snadné jej.
základní principy a použití
Lineární regrese.
Biostatistika 6. přednáška
Další spojitá rozdělení pravděpodobnosti
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Samostatný úkol: Jednovýběrový t-test Dvouvýběrový nepárový t-test
Dvouvýběrové testy parametrickch hypotéz
K OMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA Úvod do statistiky VY_32_INOVACE_M4r0117 Mgr. Jakub Němec.
Elektronická učebnice - I
ASIE - Tibet. ASIE - Tibet OBSAH Mapa Základní informace Sídla Náboženství Vlna sebeupalování Zajímavosti.
Normální rozdělení a ověření normality dat
Statistická významnost a její problémy
Biostatistika 8. přednáška
T - testy Párový t - test Má se zjistit, zda se sjíždějí přední pravé pneumatiky stejně jako přední levé pneumatiky. Bylo vybráno 6 vozů stejné značky:
Normální rozdělení. U 65 náhodně vybraných živě narozených dětí byla zkoumána jejich porodní hmotnost [g] a délka [cm].
Biostatistika 1. přednáška Aneta Hybšová
Výzkum migrací Výzkum migrantních populací jde ruku v ruce s výzkumem etnogeneze jednotlivých národů a kolonizací různých oblastí světa v minulosti. Můžeme.
VY_32_INOVACE_21-16 STATISTIKA 2 Další prvky charakteristiky souboru.
ADDS cviceni Pavlina Kuranova. Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých.
ČÍNA (ČÍNSKÁ LIDOVÁ REPUBLIKA)
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Analýza kvantitativních dat I. Vstupní test ze znalostí designu kvantitativního sociologického výzkumu Jiří Šafr jiri.safr(at)seznam.cz poslední aktualizace.
Typy výzkumu  Kvantitativní  Kvalitativní  Smíšený  První zkoumá kolik lidí si co myslí atd …  Druhý co přesně si lidé myslí  Třetí je kombinací.
Zpracování dat z kvantitativního výzkumu. Na základní škole se uskutečnil výzkum, kde se měřila hmotnost žáků 8.tříd. Výzkumu se účastnilo 33 žáků. Byly.
Zlepšení podmínek pro vzdělávání na středních školách Operačního programu Vzdělávání pro konkurenceschopnost Název a adresa školy: Integrovaná střední.
Měření v sociálních vědách „Měřit všechno, co je měřitelné, a snažit se učitnit měřitelným vše, co dosud měřitelné není“. (Galileo Galilei)
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Varianty výzkumu Kroky výzkumu Výběrový soubor
Statistické testování – základní pojmy
Testování hypotéz párový test
Homogenita meteorologických pozorování
Úvod do statistického testování
Samostatný úkol: Jednovýběrový t-test Dvouvýběrový nepárový t-test
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Homogenita meteorologických pozorování
Neparametrické testy pro porovnání polohy
Úvod do induktivní statistiky
Základy statistiky.
Elektronická učebnice - I
Transkript prezentace:

Diskriminační analýza

Tibetské lebky Následující data byla shromážděna plukovníkem L.A. Waddellem v severovýchodním a východním Tibetu. Podle Moranta (1923) se data sestávají z lebek dvou skupin: – Typ 1 – lebky 1-17 nalezené ve hrobě v Sikkimu a okolí –Typ 2 – lebky nalezené na bitevním poli v oblasti Lhasa, o kterých se předpokládá, že náleží původním válečníkům z východní provincie Khans. Tyto lebky jsou hlavním objektem výzkumu, neboť existuje doměnka, že původní Tibeťané z provincie Khans mohly být potomky zvláštního lidského druhu, který nebyl příbuzný s Mongoly ani Indy, kteří jej obklopovali.

Tibetské lebky Délka lebky Šířka lebky Výška lebky Výška čela Lícní šířka Typ lebky … Pozn.:Údaje jsou měřeny v milimetrech

Hotellingův T 2 test Je mnohorozměrnou obdobou dvouvýběrového Studentova t-testu Testujeme hypotézu, že oba výběry pocházejí z téže populace, proti alternativě, že výběry pocházejí z různých populací (populací s různými vektory středních hodnot pro dané statistické znaky) V našem případě budeme testovat hypotézu, že pětirozměrný vektor středních hodnot je stejný v obou populacích, ze kterých výběrové soubory lebek pocházejí.

Výpočet v programu R attach(Tibet) p <- 5 X1 <- Tibet[Type==1,-6] X2 <- Tibet[Type==2,-6] a1 <- apply(X1, 2, mean) a2 <- apply(X2, 2, mean) n1 <- length(Type[Type==1]) n2 <- length(Type[Type==2]) S <- ((n1-1)*var(X1)+(n2-1)*var(X2)) / (n1+n2-2) T2 <- t(a1-a2) %*% solve(S) %*% (a1-a2) * ((n1*n2)/(n1+n2)) Fstat <- (n1+n2-p-1)*T2 / (p*(n1+n2-2)) Pvalue<- 1-pf(Fstat, p, n1+n2-p-1)

Cíl diskriminační analýzy Předpokládejme, že objevíme další lebku, jejíž původ je neznámý, tj. nevíme, je-li tato lebka typu 1 nebo 2. Cílem diskriminační analýzy je zkonstruovat diskriminační (určující) pravidlo na základě původního souboru dat, u nichž je klasifikace (tj. příslušný typ lebky) znám. Pomocí tohoto pravidla poté rozhodneme, jakého typu je nalezená lebka neznámého původu.

Fischerova lineární diskriminační funkce v R X1 <- Tibet[Type==1,-6] X2 <- Tibet[Type==2,-6] a1 <- apply(X1, 2, mean) a2 <- apply(X2, 2, mean) n1 <- length(Type[Type==1]) n2 <- length(Type[Type==2]) S <- ((n1-1)*var(X1)+(n2-1)*var(X2)) / (n1+n2-2) v <- solve(S) %*% (a1-a2) z <- (t(v) %*% a1 + t(v) %*% a2) / 2

Klasifikační pravidlo Vektor koeficientů diskriminační funkce : a' = [– 0.031, 0.122, – 0.045, – 0.235, – 0.136] Hraniční hodnota (treshold value) z = – Objekt zařadíme do I. skupiny, je-li – × (délka lebky) × (šířka lebky) – × (výška lebky) – × (výška čela) – × (lícní šířka) > – jinak objekt zařadíme do II. skupiny

Ukázka klasifikace dvou neznámých lebek v R lebka1 <- c(171.0, 140.5, 127.0, 69.5, 137.0) t(v) %*% lebka1 lebka2 <- c(179.0, 132.0, 140.0, 72.0, 138.5) t(v) %*% lebka2