SUMMARY
critical region Z* Z-critical value
Decision errors Type I: you reject the null, but you shouldn't. (α) Type II: You do not reject the null, but you should. Decision Reject H 0 Retain H 0 State of the world H 0 true Type I error FP H 0 false Type II error FN
Summary of t-tests two-sample tests
NEW STUFF
Výrobce garantuje, že jím vyrobené žárovky mají životnost v průměru 1000 hodin. Aby útvar kontroly zjistil, že tomuto konstatování odpovídá i v daném období vyrobená a expedovaná část produkce, vybral z připravené dodávky náhodně 50 žárovek a došel k závěru, že průměrná doba životnosti je 950 hodin se směrodatnou odchylkou 100 hodin. Je zjištěný rozdíl doby životnosti známkou nekvality produkce?
Ve Zpiťákově se dělal výzkum požívání alkoholu tak, že se náhodně vybralo 8 občanů a u nich se zjistila průměrná měsíční konzumace alkoholu. Po nějaké době došlo ve městě ke dvěma úmrtím na cirrhózu jater (u jiných Zpiťarů, než kteří byli statisticky testováni). K posouzení, zda tato událost snížila konzumaci ve městě, se u stejných 8 občanů zjistila opět měsíční spotřeba. Rozhodněte, zda ona dvě úmrtí snížila konzumaci?
Průměrná váha žen v ČR ve věku let je 67 kg se směrodatnou odchylkou 4 kg. Průměrná hmotnost 10 náhodně vybraných studentek VŠCHT činí 65,4 kg se směrodatnou odchylkou 3,2 kg. Vede dlouhotrvající sezení na nudných přednáškách a stres ze zkoušek z nesrozumitelných předmětů k poklesu váhy studentek?
Porovnáváme množství organických látek v odpadních vodách dvou papíren. Na základě několika náhodných měření v těchto papírnách máme rozhodnout, zda se tyto papírny liší v množství odpadních látek. V první papírně proběhlo 20 měření s průměrem 14,9 a směrodatnou odchylkou 4,8. 25 měření z druhé papírny vykazovalo průměr 22,0 a směrodatnou odchylku 7,4.
Podnikatel začal vyrábět jehly do šicích strojů. Prosadí se na trhu jedině tehdy, jestliže jeho jehly budou mít vyšší životnost než konkurenční. Z odborného tisku podnikatel zjistil, že životnost konkurenčních jehel je 8,72 milion stehů. Sám na zkoušku vyrobil 395 jehel, jejichž průměrná životnost činila 8,92 milionu stehů se směrodatnou odchylkou 1,81 milionu stehů. Má podnikatel rozjet výrobu naplno?
Report statistical results I Descriptive statistics mean, s.d. Confidence intervals confidence level (e.g., 95%) lower limit upper limit CI on what (e.g., on a mean)? APA style See, for example, Confidence interval on the mean difference; 95% CI = (4,6)
Report statistical results II
ANOVA
A problem You're comparing three brands of beer.
A problem You buy four bottles of each brand for the following prices. What do you think, which of these brands have significantly different prices? Primátor and Kocour Primátor and Matuška Kocour and Matuška No significant difference between any of these. PrimátorKocourMatuška
t-test We can do three t-tests to show if there is a significant difference between these brands. How many t-tests would you need to compare four samples? 6 To compare 10 samples, you need 45 t-tests! This is a lot. We don’t want to do a million t-tests. But in this lesson you'll learn a simpler method. Its called Analysis of variance (Analýza rozptylu) – ANOVA.
Multiple comparisons problem
Bennet et al., Journal of Serendipitous and Unexpected Results, 1, 1-5, 2010
Correcting for multiple comparisons
Main idea Variability between sample means Error, variability within samples
Beer brands – a boxplot PrimátorKocourMatuška
Numerator How can we compare three or more samples? 1. Use the maximum distance between any two sample means. 2. Use the average deviation of each sample mean from the total mean. 3. Find the averaged squared deviation of each sample mean from the total mean. 4. Find the average squared deviation of each value in each sample from the total mean. This is called between-group variability (variabilita mezi skupinami).
Between-group variability What conclusions can we draw from deviation of each sample mean from the grand mean? 1. The greater the distance between sample means, the less likely population means will differ significantly. 2. The smaller the distance between sample means, the less likely population means will differ significantly. 3. The greater the distance between sample means, the more likely population means will differ significantly. 4. The smaller the distance between sample means, the more likely population means will differ significantly.
Denominator
How variability impacts the difference in means
What does this say about comparing three or more samples? Check all that apply. 1. The greater the variability of each individual sample, the less likely population means will differ significantly. 2. The smaller the variability of each individual sample, the less likely population means will differ significantly. 3. The greater the variability of each individual sample, the more likely population means will differ significantly. 4. The smaller the variability of each individual sample, the more likely population means will differ significantly. Within-group variability
ANOVA If we compare samples we simply extend the idea of the t- test. We can compare samples to each other by comparing how far each sample mean is from the grand mean (between-group variability). But we also want to look at the variability of each sample because this impacts whether or not the samples are significantly different (within-group variability). ANOVA can compare as many means as you want just with one test.
Hypothesis
F ratio As between-group variability increases, F-statistic increases and this leans more in favor of the alternative hypothesis that at least one pair of means is significantly different. As within-group variability increases, F-statistic decreases and this leans more in favor of the null hypothesis that the means are not siginificantly different.
Between-group variability SS – sum of squares, součet čtverců MS – mean square, průměrný čtverec SSB – součet čtverců mezi skupinami MSB – průměrný čtverec mezi skupinami
Within-group variability SSW – součet čtverců uvnitř skupin MSW – průměrný čtverec uvnitř skupin
Within-group variability PrimátorKocourMatuška
F-ratio
F-distribution
F distribution
Beer prices PrimátorKocourMatuška
F 2,9 F 9,2
Beer brands – ANOVA