Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem

Podobné prezentace


Prezentace na téma: "S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem"— Transkript prezentace:

1 S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem WWW:

2 A NALÝZA ZÁVISLOSTÍ

3 Elementární metody popisu závislostí Úvod do zkoumání závislostí mezi jevy. Závislost dvou slovních proměnných. Závislost číselné a slovní proměnné. 3

4 A NALÝZA ZÁVISLOSTÍ Jednostranná závislost Příčina působí na důsledek, ale důsledek již zpětně neovlivňuje příčinu. Oboustranná závislost Nelze jednoznačně určit příčinu a důsledek. Vazba je vzájemná, jeden jev ovlivňuje druhý a druhý zpětně působí na první. 4

5 A NALÝZA ZÁVISLOSTÍ V případě jednostranné závislosti, je příčina tzv. vysvětlující proměnnou (nebo nezávislou proměnnou). V případě jednostranné závislosti, je důsledek tzv. vysvětlovanou proměnnou (nebo závislou proměnnou). Příklad. Sledujeme závislost koncentrace znečišťujících látek v řece na teplotě vody.Teplota ovlivňuje koncentraci, ale opačně nelze tvrdit, se teplota vody mění v závislosti na koncentraci. Teplota je vysvětlující proměnná. Koncentrace znečišťujících látek je vysvětlovaná proměnná. 5

6 A NALÝZA ZÁVISLOSTÍ V případě oboustranné závislosti nelze vysvětlující a vysvětlovanou proměnnou jednoznačně určit. Příklad. Co je příčina a co důsledek při posuzování vztahu počtu predátorů a množství kořisti na vymezeném území? Různé hodnoty počtu predátorů lze vysvětlit změnami v množství kořisti. Ale stejně tak lze různé hodnoty v množství kořisti vysvětlit změnami v počtu predátorů. Nelze jednoznačně určit, která proměnná je vysvětlující a která vysvětlovaná. Obě se vzájemně ovlivňují. 6

7 A NALÝZA ZÁVISLOSTÍ Závislost funkční (pevná) Určité hodnotě jedné proměnné odpovídá jen jedna určitá hodnota jiné proměnné. Závislost lze vyjádřit funkčním vztahem mezi závislou a nezávislou proměnnou y = f(x). Příklad. Závislost mezi dobou jízdy a ujetými kilometry, pokud vozidlo jede konstantní rychlostí 75 km/h. Každou hodnotu lze vypočítat podle funkce: vzdálenost = rychlost * čas. Doba (h)0,5122,510 Ujeto (km)37, ,5750 7

8 A NALÝZA ZÁVISLOSTÍ Závislost funkční (pevná) Důsledek je určen jednou nebo několika málo příčinami, které lze jednoznačně určit. Nepůsobí zde žádné neznámé nebo náhodné vlivy. Nejvíce ve fyzice, mechanice, chemii a některých oblastech biologie. 8

9 A NALÝZA ZÁVISLOSTÍ Závislost stochastická (volná) „Dvě náhodné proměnné jsou stochasticky závislé, jestliže jsou změny hodnot jedné z nich doprovázeny změnami podmíněného pravděpodobnostního rozdělení druhé z nich.“ Určité hodnotě jedné proměnné může odpovídat více hodnot jiné proměnné, ale jejich výskyt se řídí určitým pravděpodobnostním rozdělením. Příklad. Závislost koncentrace přízemního ozónu na slunečním záření. Sluneční záření (W/m 2 ) Koncentrace O 3 (µg/m 3 )70,148,1100,699,869,151,2 9

10 A NALÝZA ZÁVISLOSTÍ Závislost stochastická (volná) Důsledek je určen velkým počtem příčin, jejichž projev nelze plně postihnout. Příčiny mohou být i neznámé, může působit i náhoda. Proto se sleduje vliv jen známých jevů a těch které působí nejvíce. Nejvíce v biologii, ekonomii, sociologii. Příklad: Na výšku člověka působí řada vlivů – dědičnost, věk, vliv prostředí, strava a řada dalších vlivů, které ani nebyly odhaleny. Příklad: Na koncentraci přízemního ozónu působí intenzita slunečního záření, množství emisí NO x, teplota, tlak, rychlost větru atd. 10

11 A NALÝZA ZÁVISLOSTÍ Nezávislost Proměnná se mění pouze náhodně bez ohledu na hodnotu druhé proměnné. Střední hodnota jedné veličiny se nemění, i když se hodnoty druhé veličiny mění. Příklad: závislost mezi hmotností řidiče a počtem v automobilu ujetých kilometrů za včerejší den. Hmotnost (kg) Ujeto (km)

12 A NALÝZA ZÁVISLOSTÍ Statistické postupy a metody Některé se soustřeďují jen na zjištění, zda jsou proměnné závislé či nikoliv. Jiné pak slouží ke konkrétní specifikaci závislosti. Měří těsnost závislosti (pomocí koeficientů), nebo se snaží najít formu závislosti (např. pomocí konkrétní funkce, jejímž zobrazením je graf závislosti). 12

13 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH Příklad: Byl proveden průzkum, který se zabýval závislostí mezi vzděláním respondentů a jejich názorem na výstavbu nové spalovny komunálního odpadu. Dotázáno bylo celkem 291 respondentů. Byly sledovány tři kategorie vzdělání: základní, středoškolské, Vysokoškolské. Objevily se tři formy názoru na výstavbu: souhlasím, nevím, nesouhlasím. Dotázáno bylo celkem 291 respondentů. 13

14 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH Příklad: Byl proveden malý průzkum... Výsledky průzkumu. Jedná se o tzv. kontingenční tabulku. V tabulce jsou absolutní četnosti. SouhlasímNevímNesouhlasímCelkem Základní Středoškolské Vysokoškolské Celkem Tedy počet dotázaných se základním vzděláním, kteří souhlasí je 63. Celkový počet nesouhlasících respondentů je

15 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH Kontingenční tabulka je dvourozměrná tabulka se slovními proměnnými. Korelační tabulka je dvourozměrná tabulka s číselnými proměnnými, které jsou popsány buďto hodnotami proměnných nebo intervaly hodnot proměnných. Např.: Korelační tabulka Sňatky podle vzájemného věku snoubenců v roce 2008 (zdroj: Český statistický úřad).Korelační tabulka Sňatky podle vzájemného věku snoubenců v roce 2008 Čtyřpolní tabulka je specifická tabulka, kde obě proměnné mají jen dvě obměny (může být jak kontingenční, tak i korelační). 15

16 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH Příklad: Byl proveden malý průzkum... Obecně lze kontingenční tabulku absolutních četností zapsat: SouhlasímNevímNesouhlasím Celkem n i. Základnín 11 n 12 n 13 n 1. Středoškolskén 21 n 22 n 23 n 2. Vysokoškolskén 31 n 32 n 33 n 3. Celkem n.j n.1 n.2 n.3 n SouhlasímNevímNesouhlasím Celkem Základní Středoškolské Vysokoškolské Celkem n ij řádeksloupec 16

17 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH Příklad: Byl proveden malý průzkum... Názornější představu o průzkumu poskytují relativní četnosti ! SouhlasímNevímNesouhlasímCelkem Základní0,220,020,100,34 Středoškolské0,140,07 0,140,35 Vysokoškolské0,040,120,150,31 Celkem0,400,210,401,00 22% dotázaných jsou lidé se základním vzděláním, kteří souhlasí s výstavbou. Celkový podíl nesouhlasných odpovědí je 40% z celkového počtu respondentů. 17

18 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH Příklad: Byl proveden malý průzkum... Obecně lze kontingenční tabulku relativních četností zapsat: SouhlasímNevímNesouhlasímCelkem p i. Základníp 11 p 12 p 13 p 1. Středoškolskép 21 p 22 p 23 p 2. Vysokoškolskép 31 p 32 p 33 p 3. Celkem p.j p.1 p.2 p.3 p p ij řádeksloupec p ij jsou tzv. sdružené relativní četnosti. p ij = n ij / n p i. a p.j jsou tzv. okrajové relativní četnosti. 18

19 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH Příklad: Byl proveden malý průzkum... Tabulka podmíněných relativních četností (řádky tvoří 100%): SouhlasímNevímNesouhlasímCelkem Základní63/99 = 0,640,060,301,00 Středoškolské0,390,21 0,401,00 Vysokoškolské0,130,3844/90 = 0,491,00 Celkem0,400,210,401,00 SouhlasímNevímNesouhlasím Celkem Základní Středoškolské Vysokoškolské Celkem

20 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH Příklad: Byl proveden malý průzkum... Tabulka podmíněných relativních četností (řádky tvoří 100 %): SouhlasímNevímNesouhlasímCelkem Základní0,640,060,301,00 Středoškolské0,390,21 0,401,00 Vysokoškolské0,130,380,491,00 Celkem0,400,210,401,00 64 % respondentů se základním vzděláním souhlasí, 6 % neví a 30 % nesouhlasí. Z celkového počtu dotázaných 40 % souhlasí, 20 % neví a 40 % nesouhlasí s výstavbou. 20

21 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH Příklad: Byl proveden malý průzkum... Tabulka podmíněných relativních četností (sloupce tvoří 100%): SouhlasímNevímNesouhlasímCelkem Základní0,550,1030/115 =0,260,34 Středoškolské40/115 =0,350,34 0,360,35 Vysokoškolské0,100,560,380,31 Celkem1,00 SouhlasímNevímNesouhlasím Celkem Základní Středoškolské Vysokoškolské Celkem

22 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH Příklad: Byl proveden malý průzkum... Tabulka podmíněných relativních četností (sloupce tvoří 100 %): SouhlasímNevímNesouhlasímCelkem Základní0,550,100,260,34 Středoškolské0,350,34 0,360,35 Vysokoškolské0,100,560,380,31 Celkem1,00 Skladba respondentů, kteří odpovídali variantu Nevím: 10 % základní, 34 % středoškolské a 56 % vysokoškolské vzdělání. Z celkového počtu dotázaných má 34 % základní, 35 % středoškolské a 31 % vysokoškolské vzdělání. 22

23 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH Příklad: Byl proveden malý průzkum... Tabulka podmíněných relativních četností: Při pohledu na relativní četnosti se zdá, že rozložení není příliš rovnoměrné. Větší podíl respondentů se základním vzděláním souhlasí, zatímco vysokoškoláci spíše neví nebo nesouhlasí. SouhlasímNevímNesouhlasímCelkem Základní0,640,060,301,00 Středoškolské0,390,21 0,401,00 Vysokoškolské0,130,380,491,00 Celkem0,400,210,401,00 23

24 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH Příklad: Byl proveden malý průzkum... Pokud nejsou četnosti rovnoměrně rozloženy, mohl by to být signál, že existují rozdíly mezi preferencemi jednotlivých deníků a že existuje závislost mezi vzděláním a preferovaným deníkem. Jde však pouze o průzkum, takže je nutno ověřit testem, zda závislost skutečně existuje. 24

25 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH Závislost lze popsat pomocí testu dobré shody, který určí zda závislost je či není (neříká nic o tom, jak je závislost velká). Dále pomocí kontingenčních koeficientů, které určí i jak je závislost silná. Obě metody vycházejí z porovnání empirických četností n ij s hypotetickými četnostmi ψ ij, které reprezentují rovnoměrné rozložení četností v tabulce a znázorňují situaci, kdy jsou obě proměnné nezávislé. 25

26 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH Příklad: Byl proveden malý průzkum... Tabulka hypotetických četností ψ ij. SouhlasíNevíNesouhlasíCelkem Základní 99*115/291 = 39,120,8 39,199 Středoškolské40,321,4 102*115/291 = 40,3 102 Vysokoškolské35,618,935,690 Celkem Každá hodnota ψ ij je součin celkového součtu v odpovídajícím řádku n i. s celkovým součtem v odpovídajícím sloupci n.j, děleno celkovým počtem prvků v tabulce n. 26

27 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH SouhlasíNevíNesouhlasíCelkem Základní39,120,839,199 Středoškolské40,321,4 40,3102 Vysokoškolské35,618,935,690 Celkem Pokud by byly proměnné nezávislé, pak by z celkového počtu 291 respondentů mělo 39 souhlasit a mít základní vzdělání a 39 nesouhlasit a mít základní vzdělání. Ve skutečnosti jsou tyto hodnoty ovšem 63 resp. 30, tedy je zde rozdíl! Test ověří, zda dostatečný pro prokázání závislosti. 27 Příklad: Byl proveden malý průzkum... Tabulka hypotetických četností ψ ij.

28 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH Test dobré shody H 0 : proměnné jsou nezávislé H A : proměnné jsou závislé Testovací statistika Kritický obor r... počet řádků tabulky s... počet sloupců tabulky MS Excel: = CHITEST (oblast absolutních četností; oblast hypotetických četností) Online kalkulátory: 28

29 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH SouhlasíNevíNesouhlasí Základní14,5710,492,13 Středoškolské0,000,01 Vysokoškolské15,6212,142,00 Celkem30,1922,634,14 Tabulka obsahuje pomocné výpočty pro test dobré shody. Hodnota testovací statistiky G = 56,96, jde o součet všech buněk výše uvedené tabulky! = (n 11 – ψ 11 ) 2 / ψ 11 = = (63 – 39,1) 2 /39,1= 14,57 29 Příklad: Byl proveden malý průzkum... Test dobré shody

30 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH Příklad: Byl proveden malý průzkum... Test dobré shody H 0 : souhlas s výstavbou spalovny nezávisí na vzdělání H A : souhlas s výstavbou spalovny závisí na vzdělání Hladina významnosti α = 0,05 Testovací statistika G = 56,96 Kritický obor Hodnota testovací statistiky padne do kritického oboru, takže zamítáme hypotézu o nezávislosti a přijímáme hypotézu, že souhlas s výstavbou spalovny skutečně závisí na vzdělání respondentů. 30

31 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH Příklad: Byl proveden malý průzkum... Test dobré shody H 0 : souhlas s výstavbou spalovny nezávisí na vzdělání H A : souhlas s výstavbou spalovny závisí na vzdělání Hladina významnosti α = 0,05 P-hodnota vypočtená funkcí CHITEST p = 1,25494E-11 P-hodnota je výrazně blízká nule, a tedy menší než α = 0,05, takže zamítáme hypotézu o nezávislosti a přijímáme hypotézu, že souhlas s výstavbou spalovny skutečně závisí na vzdělání respondentů. 31

32 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH Podmínky použití testu dobré shody Dostatečný počet pozorování – hypotetické četnosti musejí být ve všech polích tabulky > 5 Pokud není podmínka splněna, může být řešením sloučení souvisejících kategorií. 32 BleskHNMF Dnes Základní39,120,839,1 Středoškolské40,321,440,3 Vysokoškolské35,618,935,6 SouhlasímNevímNesouhlasím Základní39,120,839,1 Středoškolské bez maturity4,32,225,1 Středoškolské s maturitou3619,215,2 Vysokoškolské Bc.20,31631,6 Vysokoškolské Mgr.15,32,94 Tabulka s nedostatečně obsazenými políčky Tabulka po sloučení souvisejících kategorií

33 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH Kontingenční koeficienty 1. Cramérův – nabývá hodnoty Čím blíže je jedné, tím je závislost silnější. n... počet pozorování h... je menší z dvojice čísel r-1, s-1 Online kalkulátor: 2. Pearsonův – nabývá hodnoty od 0, horní mez se s rostoucím h blíží 1. Čím blíže je jedné, tím je závislost silnější. 33

34 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH Příklad: Byl proveden malý průzkum... Kontingenční koeficienty 1. Cramérův Podle Cramérova koeficientu se jedná o slabou závislost. 2. Pearsonův Podle Pearsonova koeficientu se jedná o slabou závislost. 34

35 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH D ALŠÍ TESTY – SPECIÁLNÍ PŘÍPADY Čtyřpolní tabulka (2x2) Chí-kvadrát test dobré shody s Yatesovou korekcí Online kalkulátory: Čtyřpolní tabulka (2x2) s malým obsazením políček (<5) Fisherův exaktní test Online kalkulátory: 35

36 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH D ALŠÍ TESTY – SPECIÁLNÍ PŘÍPADY Fisherův exaktní test Příklad: Ochrana budek chráněného ptactva proti predaci 36 Ochrana/PredacePredovánoNepredováno Ochrana110 Bez ochrany83 Ho: Predace budek není závislá na aplikaci ochrany, tedy ochrana nefunguje. Ha: Predace budek se po aplikaci ochrany sníží, tedy ochrana funguje. P-hodnota (online kalkulátor) = 0,0075 P-hodnota < hladina významnosti (α = 0,05) zamítáme Ho, ochrana snižuje predaci budek.

37 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH D ALŠÍ TESTY – SPECIÁLNÍ PŘÍPADY Čtyřpolní tabulka dvou závislých výběrů popsaných dichotomickými proměnnými (nabývají pouze dvou hodnot: ano x ne) McNemarův test Online kalkulátory: 37

38 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH D ALŠÍ TESTY – SPECIÁLNÍ PŘÍPADY McNemarův test Příklad: Postoj lidí ke stavbě spalovny komunálního odpadu před a po odborné přednášce 38 Před / PoSouhlasíNesouhlasí Souhlasí51 Nesouhlasí162 Ho: Počet lidí s pozitivní změnou postoje je pouze náhodně odlišný od počtu s negativní změnou postoje, tedy přednáška nepřinesla významné zlepšení postojů. Ha: Počet lidí s pozitivní změnou je vyšší než počet se změnou negativní, tedy přednáška přinesla významné zlepšení postojů. P-hodnota (online kalkulátor) = 0,00275 P-hodnota < hladina významnosti (α = 0,05) zamítáme Ho, přednáška přinesla významné zlepšení postojů.

39 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH D ALŠÍ TESTY – SPECIÁLNÍ PŘÍPADY Kontingenční tabulka dvou závislých výběrů Cochranův Q test Kontingenční tabulka typu NxN dvou závislých výběrů Bowkerův test 39

40 Z ÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH S HRNUTÍ TESTŮ 40 Rozměry tabulky ProměnnéPodmínkaTestNástroj Více jak 2x2NezávisléHyp. četnosti >5Chí-kvadrát test dobré shody MS Excel Online kalkulátory Software 2x2NezávisléHyp. četnosti >5Chí-kvadrát test dobré shody s Yatesovou korekcí Online kalkulátory Software 2x2NezávisléEmp. četnosti <5Fisherův exaktní test Online kalkulátory Software NxNZávislé-Bowkerův test Software MxNZávislé-Cochranův Q test Software 2x2Závislé-McNemarův test Online kalkulátory Software

41 Z ÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ Příklad: Byly sledovány emise CO 2 čtyř bloků uhelné elektrárny ve vybraných letech (v tis. tun za rok). RokBlok ABlok BBlok CBlok D

42 Z ÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ Příklad: Byly sledovány emise CO 2 … Zajímá nás, zda jsou emise ze všech bloků stejné, nebo zda závisejí na bloku. Neboli zda číselná proměnná (emise) závisí na slovní proměnné (blok elektrárny). Závislost se zjišťuje pomocí analýzy rozptylu - ANOVA (viz minulá přednáška). MS EXCEL: Data – Analýza – Analýza dat – Anova: jeden faktor Online kalkulátory: (do 5 skupin)http://vassarstats.net/anova1u.html 42

43 Z ÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ Příklad: Byly sledovány emise CO 2 … Původní hypotéza analýzy rozptylu se vztahuje k průměrným emisím: H 0 : μ 1 = μ 2 = μ 3 = μ 4 (všechny průměry se rovnají) H A : alespoň dva průměry se nerovnají Je ekvivalentní s hypotézami: H 0 : Emise nezávisejí na bloku elektrárny. H A : Emise závisejí na bloku elektrárny. Pokud totiž platí H 0, tak jsou průměrné emise stejné a jejich změny ovlivňuje něco jiného než je blok elektrárny. 43

44 Z ÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ Proč název analýza rozptylu? Rozkládá celkovou variabilitu na meziskupinovou a vnitroskupinovou 44

45 Z ÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ Testovací statistika F je podíl meziskupinové a vnitroskupinové variability. Pokud je meziskupinová variabilita výrazně vyšší než vnitroskupinová, pak zamítáme nulovou hypotézu o nezávislosti. Kritický obor testu: F ≥ F 1- α (k-1;n-k)} 45

46 Podmínky analýzy: výběry pocházejí z normálního rozdělení nebo n>30 rozptyly všech souborů jsou stejné σ 2 1 = σ 2 2 = σ 2 3 = σ = σ k ověření postačuje pravidlo: max s i / min s i ≤ 3. Pokud nejsou podmínky splněny lze použít Kruskal-Walisův test (neparamerický test shody mediánů – viz přednáška 7). Z ÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ 46

47 Z ÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ Příklad: Byly sledovány emise CO 2 … 47 Do políčka „Vstupní oblast“ zadáváme všechny sloupce včetně popisků. Data byla vložena včetně popisků proto zaškrtneme „Popisky v prvním řádku“. Jednotlivé skupiny jsou ve sloupcích proto zvolíme: „Sdružit: Sloupce“.

48 Anova: jeden faktor Faktor VýběrPočetSoučetPrůměrRozptyl Blok A Blok B , ,67 Blok C , ,67 Blok D ANOVA Zdroj variabilitySSRozdílMSFHodnota PF krit Mezi výběry ,920,886964,3231E-063, Všechny výběry559336, ,26 Celkem Z ÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ Příklad: Byly sledovány emise CO 2 … Protože platí p-hodnota 0,05), zamítáme nulovou hypotézu o nezávislosti proměnných. Testovací statistika F Kritický obor 48

49 Z ÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ Příklad: Byly sledovány emise CO 2 … Ověření podmínky rovnosti rozptylů max s i / min s i ≤ 3. Maximální s i je pro blok C (s i = 241,468). Minimální s i je pro blok A (s i = 111,803). 241,468/ 111,803 = 2,2. Podíl je menší než 3, rozptyly lze považovat za rovné a test ANOVA lze použít. 49

50 Z ÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ Příklad: Byly sledovány emise CO 2 … Test vede k závěru, že průměrné emise CO 2 ve čtyřech sledovaných blocích uhelné elektrárny nejsou stejné, tj. jejich výše je závislá na bloku. Závislost mezi číselnou proměnnou (emise) a slovní proměnnou (blok elektrárny) se podařilo prokázat. 50

51 Z ÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ Příklad: Byly sledovány emise CO 2 … Přehled o emisích poskytuje krabicový diagram 51

52 Z ÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ Těsnost závislosti lze vyjádřit i koeficientem. Determinační poměr – nabývá hodnoty. Jde podíl meziskupinové variability na celkové variabilitě. Čím je koeficient blíže k jedné, tím je závislost silnější. 52

53 Anova: jeden faktor Faktor VýběrPočetSoučetPrůměrRozptyl Město A Město B , ,67 Město C , ,67 Město D ANOVA Zdroj variabilitySSRozdílMSFHodnota PF krit Mezi výběry ,920,886964,3231E-063, Všechny výběry559336, ,26 Celkem Z ÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ Příklad: Byly sledovány emise CO 2 … Podle poměru determinace se jedná o slabou závislost. Na emise působí i další faktory než jen blok elektrárny. 53

54 Z ÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ S HRNUTÍ TESTŮ 54 PodmínkaTestNástroj Výběry pocházejí z normálního rozdělení nebo n<30. Rozptyly jsou stejné. ANOVA MS Excel Online kalkulátory Software -Kruskal-Wallisův test (přednáška 7) Online kalkulátory Software

55 Funkční závislost Stochastická závislost Kontingenční tabulka Chí-kvadrát test Kontingenční koeficienty Fisherův exaktní test McNemarův test ANOVA Poměr determinace 55 A NALÝZA ZÁVISLOSTÍ D ŮLEŽITÉ POJMY – 6. PŘEDNÁŠKA


Stáhnout ppt "S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem"

Podobné prezentace


Reklamy Google