Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem

Podobné prezentace


Prezentace na téma: "S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem"— Transkript prezentace:

1 S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem WWW:

2 K ORELAČNÍ A R EGRESNÍ ANALÝZA

3 Závislost dvou číselných proměnných. Korelační analýza - korelační koeficient a Spearmanův korelační koeficient pořadí Základní princip regresní analýzy Odhady regresních koeficientů Alternativní modely Volba vhodného modelu Diagnostická kontrola modelu 3

4 Z ÁVISLOST DVOU ČÍSELNÝCH PROMĚNNÝCH Grafická analýza závislosti dvou číselných proměnných. Proměnné vyneseme do bodového grafu, každou proměnnou na jednu osu. Graf napomáhá odhalení závislosti i naznačuje sílu závislosti! Je však třeba mít určitou zkušenost při posuzování výsledků, protože závěry mohou být dosti subjektivní. Jedná se o velmi užitečný a přitom jednoduchý nástroj. Každá složitější analýza závislosti dvou číselných proměnných by měla začínat grafickou analýzou! Nevýhodou je, že ji nelze použít, pokud je posuzován vliv více proměnných (graf lze vytvořit maximálně trojrozměrný). 4

5 Z ÁVISLOST DVOU ČÍSELNÝCH PROMĚNNÝCH Pevná (funkční) závislost. Může jít o závislost lineární, kdy všechny hodnoty leží na přímce. 5

6 Z ÁVISLOST DVOU ČÍSELNÝCH PROMĚNNÝCH Pevná (funkční) závislost. Může jít o závislost nelineární, kdy všechny hodnoty leží na křivce jiné než přímka (parabola). 6

7 Z ÁVISLOST DVOU ČÍSELNÝCH PROMĚNNÝCH Volná (stochastická) závislost. Hodnoty neleží přímo na přímce, ale je patrný jejich průběh kolem pomyslné přímky. Čím blíže jsou body pomyslné přímce, tím je závislost těsnější. 7

8 Z ÁVISLOST DVOU ČÍSELNÝCH PROMĚNNÝCH Volná (stochastická) závislost. Hodnoty neleží na přímce, ale je patrný jejich průběh kolem pomyslné přímky. V porovnání s předchozím grafem jde o slabší závislost, hodnoty jsou více rozptýlené 8

9 Z ÁVISLOST DVOU ČÍSELNÝCH PROMĚNNÝCH Volná (stochastická) závislost. Hodnoty se pohybují v okolí pomyslné paraboly. 9

10 Z ÁVISLOST DVOU ČÍSELNÝCH PROMĚNNÝCH Nezávislost. Pomyslná křivka je rovnoběžná s osou x nebo vůbec nelze nalézt pomyslnou křivku procházející množinou bodů. Nezávislost se projevuje také hodnotami v kulovém mračnu. 10

11 K ORELAČNÍ ANALÝZA Korelační koeficienty Stejně jako u analýzy závislosti dvou slovních nebo jedné slovní a jedné číselné proměnné, lze také zde použít určité koeficienty pro výpočet síly závislosti. 11

12 K ORELAČNÍ ANALÝZA Korelační koeficient – nabývá hodnoty Čím blíže je hodnotě +1, tím je závislost silnější, obě hodnoty společně rostou. Čím blíže je hodnotě -1, tím je závislost silnější, rostou-li hodnoty jedné proměnné, hodnoty druhé proměnné klesají. Je-li hodnota blízká nule, nejsou proměnné závislé. MS Excel: = CORREL (první soubor dat;druhý soubor dat) Nástroje – Analýza – Analýza dat – Korelace 12

13 K ORELAČNÍ ANALÝZA Korelační koeficient Měří vzájemnou závislost dvou proměnných. Nerozlišuje tedy mezi příčinnou a důsledkem. Jde o ukazatel oboustranné závislosti: r yx = r xy. 13

14 K ORELAČNÍ ANALÝZA Test lineární závislosti dvou číselných proměnných H 0 : mezi proměnnými není lineární závislost H A : mezi proměnnými je lineární závislost Testovací statistika: Kritický obor: W={t: |t| > t 1-α/2 (n-2)}. Online kalkulátor: 14

15 K ORELAČNÍ ANALÝZA Korelační koeficient r yx = +1 r yx = +0,85 r yx = -0,62 15

16 K ORELAČNÍ ANALÝZA Spearmanův korelační koeficient pořadí Je obdobou korelačního koeficientu (nabývá hodnot -1 ≤ r s ≤ +1). Počítá se z pořadí jednotlivých měření obou proměnných, takže: Nepopisuje jen lineární závislost, ale jakékoliv monotónní vztahy (obecný růst nebo obecný pokles), je odolný vůči vlivu odlehlých hodnot. 16

17 K ORELAČNÍ ANALÝZA Spearmanův korelační koeficient pořadí Každé hodnotě se přiřadí pořadí R x a R y vzhledem k ostatním hodnotám. Pokud jsou hodnoty ve sloupci stejné, vypočet se pořadí jako průměr. D i je pak rozdíl pořadí pro každou dvojici hodnot D i = R x - R y. Online kalkulátory: (včetně testu závislosti) 17

18 K ORELAČNÍ ANALÝZA Test závislosti dvou číselných proměnných pomocí Spearmanova korelačního koeficientu pořadí H 0 : mezi proměnnými není monotónní závislost H A : mezi proměnnými je monotónní závislost Testovací statistika: samotný koeficient r s Kritický obor: W={r s ; r s > r(n;α)} r s statistika nemá standardní rozdělení, proto je nutno hledat v tabulce (http://most.ujep.cz/~popelka/tabulky.xls)http://most.ujep.cz/~popelka/tabulky.xls Online kalkulátor: 18

19 K ORELAČNÍ ANALÝZA Příklad: Byly sledovány hmotnost a IQ dětí, výsledky jsou v tabulce. Je možné, že by tyto dva číselné ukazatele byly závislé? hmotnost (kg) IQ

20 K ORELAČNÍ ANALÝZA Příklad: Byly sledovány hmotnost a IQ dětí... Bodový graf a hodnota korelačního koeficientu r yx = 0,9346 Analýza ukázala, že se jedná o velmi silnou závislost!!! S rostoucí hmotností roste IQ. 20

21 K ORELAČNÍ ANALÝZA Příklad: Byla sledována hmotnost a IQ dětí... Tvrzení je samozřejmě nesmyslné!! Jedná se o tzv. zdánlivou korelaci. Existuje totiž další proměnná (věk dítěte), se kterou jsou obě proměnné vysoce korelovány. Korelace mezi hmotností a IQ je způsobena vlivem věku. S rostoucím věkem roste jak hmotnost, tak i IQ. Nelze ale tvrdit, že s rostoucí hmotností roste IQ nebo obráceně. hmotnost (kg) IQ věk (roky)

22 K ORELAČNÍ ANALÝZA Příklad: Byla sledována hmotnost a IQ dětí... Korelační matice – vyjadřuje korelaci všech dvojic proměnných. Hmotnost a věk jsou silně kladně korelovány 0,909. IQ a věk jsou silně kladně korelovány 0,905. MS Excel: Data – Analýza – Analýza dat – Korelace hmotnostIQvěk hmotnost1 IQ0, věk0, ,

23 K ORELAČNÍ ANALÝZA Příklad: Český hydrometeorologický ústav v Praze měřil na stanicích s různou nadmořskou výškou průměrnou roční teplotu půdy. Údaje jsou uvedeny v následující tabulce. Existuje mezi oběma proměnnými nějaká závislost? Nadmořská výška (m n. m.) Průměrná teplota půdy ( 0 C)10,410,59,39,29,98,788,38,1 23

24 K ORELAČNÍ ANALÝZA Příklad: Český hydrometeorologický ústav v Praze měřil... Elementární metody popisu závislosti: korelační koeficient r yx = -0,835 Vzhledem k malému počtu hodnot provedu test lineární závislosti. H 0 : mezi proměnnými není lineární závislost H A : mezi proměnnými je lineární závislost P-hodnota vypočtená online kalkulátorem (http://vassarstats.net/rsig.html): p-hodnota = 0,0025.http://vassarstats.net/rsig.html Zamítáme Ho. Platí Ha mezi proměnnými je lineární závislost. 24

25 K ORELAČNÍ ANALÝZA Příklad: Český hydrometeorologický ústav v Praze měřil... Elementární metody popisu závislosti: Spearmanův korelační koeficient pořadí r s = -0,8833 Ze všech výše uvedených nástrojů vyplývá závěr: Jedná se o silnou závislost, ne však deterministickou (kromě výšky působí na teplotu i jiné faktory). S rostoucí výškou průměrná teplota půdy klesá. 25

26 K ORELAČNÍ ANALÝZA Příklad: Český hydrometeorologický ústav v Praze měřil... Elementární metody popisu závislosti: bodový graf 26

27 R EGRESNÍ ANALÝZA Co je to regresní analýza? Souhrn statistických metod a postupů a slouží k detailnímu pochopení závislosti mezi dvěma nebo více číselnými proměnnými, slouží k odhadu hodnot vysvětlované proměnné pro známé hodnoty vysvětlující proměnné. Aplikace regresní analýzy: analýza závislosti dvou číselných proměnných, analýza závislosti více číselných proměnných, analýza vývoje ukazatele v čase (závislost ukazatele na proměnné čas). 27

28 R EGRESNÍ ANALÝZA Jednoduchá regresní analýza Popisuje závislost dvou číselných proměnných z nichž jedna je nezávislá (vysvětlující proměnná) a jedna je závislá (vysvětlovaná proměnná). Příklad: závislost koncentrace ozónu na intenzitě slunečního záření. Příklad: závislost koncentrace prachových částic v ovzduší na atmosférickém tlaku. Příklad: závislost výšky sněhové pokrývky na nadmořské výšce. 28

29 R EGRESNÍ ANALÝZA Vícenásobná regresní analýza Popisuje závislost více číselných proměnných z nichž více je nezávislých (vysvětlující proměnné) a jen jedna je závislá (vysvětlovaná proměnná). Příklad: závislost koncentrace ozónu na intenzitě slunečního záření, délce slunečního záření, intenzitě automobilové dopravy, tlaku. Příklad: závislost koncentrace prachových částic v ovzduší na atmosférickém tlaku, teplotě, vlhkosti, rychlosti větru. Příklad: závislost výšky sněhové pokrývky na nadmořské výšce, délce slunečního záření, typu vegetace, sklonu svahu, směru svahu. 29

30 Regresní model Zjednodušené zobrazení reality. Závislost popisuje pomocí rovnice (v grafu křivka). y = η + ε Např. pomocí přímky: y = β 0 + β 1 x + ε (lineární závislost) Deterministická složka Náhodná složka (popisuje vliv vysvětlující(všechny ostatní, proměnné)nepopsané vlivy) R EGRESNÍ ANALÝZA 30

31 R EGRESNÍ ANALÝZA Deterministická složka η Popisuje závislost mezi hlavními (pozorovanými) proměnnými. Je vyjádřena konkrétní matematickou funkcí (přímka, hyperbola, parabola atd.) Náhodná složka ε Popisuje závislost vysvětlované proměnná na neznámých nebo nepozorovaných proměnných a popisuje i vliv náhody. Vyjadřuje se pravděpodobnostní funkcí (normální rozdělení). 31

32 R EGRESNÍ ANALÝZA Která regresní přímka je vlastně správná? Pokud jsou pouze dva body, je to jejich spojnice. To ovšem není úloha pro statistiku. 32

33 R EGRESNÍ ANALÝZA Která regresní přímka je vlastně správná? Pokud je více bodů, je to již problém. Spojuje přímka krajní body? Spojuje přímka jiné dva body? 33

34 R EGRESNÍ ANALÝZA Která regresní přímka je vlastně správná? Pokud je více bodů, je to již problém. Spojuje přímka jiné dva body? Prochází přímka mezi body? 34

35 R EGRESNÍ ANALÝZA Příklad: Český hydrometeorologický ústav v Praze měřil... Pokud body proložíme přímkou, hovoříme o tzv. regresní přímce. Pokud by všechny body ležely na přímce, šlo by o model pouze s deterministickou složkou η. Body však leží i mimo – v modelu je deterministická složka η i náhodná složka ε. 35

36 R EGRESNÍ ANALÝZA Příklad: Český hydrometeorologický ústav v Praze měřil... Která regresní přímka je ta správná?? Lze vložit přímku jen tak od oka (zelená). Lze protnout krajní body (červená). Lze použít nástroje regresní analýzy a nalézt přímku, která prochází nejblíže všem bodům (černá). 36

37 R EGRESNÍ ANALÝZA Příklad: Český hydrometeorologický ústav v Praze měřil... Přímka procházející nejblíže všem bodům je vždy jen jedna! K jejímu nalezení slouží metoda nejmenších čtverců (MNČ). Vybere ze všech možných přímek takovou, pro kterou je součet druhých mocnin (čtverců) odchylek bodů od přímky (e i 2 ) minimální. e3e3 e1e1 e2e2 e4e4 e5e5 e6e6 e7e7 e8e8 e9e9 37

38 R EGRESNÍ ANALÝZA Příklad: Český hydrometeorologický ústav v Praze měřil... Přímka označená jako 1 je blíže k bodům, součet čtverců odchylek je menší než u přímky označené jako 2. Přímka 1 je vhodnější. přímka 2 přímka 1 38

39 R EGRESNÍ ANALÝZA Metoda nejmenších čtverců Nástroj k určení bodových odhadů koeficientů výběrové regresní přímky: ŷ = b 0 + b 1 x Výběrová je proto, že je založena pouze na výběrových datech. Koeficienty b 0, b 1 jsou výběrové (empirické) regresní koeficienty. Oproti tomu regresní přímka: η = β 0 + β 1 x, je založena na datech základního souboru (ta většinou nejsou k dispozici), proto je tento model konstruován na základě odhadu. 39

40 R EGRESNÍ ANALÝZA Metoda nejmenších čtverců Je založena na řešení soustavy normálních rovnic (pro regresní přímku s neznámými b 0 a b 1 ): jejichž řešením je: 40

41 R EGRESNÍ ANALÝZA Příklad: Český hydrometeorologický ústav v Praze měřil... Pomocí metody nejmenších čtverců byla odhadnuta regresní přímka ve tvaru ŷ = 10,795 – 0,00541 · x, nebo také: průměrná teplota půdy = 10, ,00541·nadmořská výška. Pozn. V grafu z MS Excel je rovnice zapsána jako výstup volby „Přidat spojnici trendu“ – typ: Lineární. 41

42 R EGRESNÍ ANALÝZA Příklad: Český hydrometeorologický ústav v Praze měřil... Pomocí metody nejmenších čtverců byla odhadnuta regresní přímka ve tvaru ŷ = 10,795 – 0,00541 · x. Koeficient b 0 = 10,795 je průsečík přímky s osou Y. V nadmořské výšce 0 metrů n.m. by podle modelu byla průměrná teplota půdy 10,795 0 C. 42

43 R EGRESNÍ ANALÝZA Příklad: Český hydrometeorologický ústav v Praze měřil... Pomocí metody nejmenších čtverců byla odhadnuta regresní přímka ve tvaru ŷ = 10,795 – 0,00541 · x. Koeficient b 1 = 0,00541 je směrnicí přímky a udává její sklon. Je záporný - přímka klesá. S každým dalším metrem nadmořské výšky klesá průměrná teplota půdy v průměru o 0, C. 43

44 R EGRESNÍ ANALÝZA Příklad: Český hydrometeorologický ústav v Praze měřil... MS Excel: Data – Analýza – Analýza Dat – Regrese 44 Do políčka „Vstupní oblast Y“ zadáváme závislou proměnnou. Data byla vložena včetně popisků proto zaškrtneme „Popisky“. Do políčka „Vstupní oblast X“ zadáváme nezávislou proměnnou.

45 R EGRESNÍ ANALÝZA Příklad: Český hydrometeorologický ústav v Praze měřil... MS EXCEL: Data – Analýza – Analýza Dat – Regrese Regresní přímka ve tvaru: ŷ = 10,795 – 0,00541 · x. Koeficienty Chyba stř. hodnotyt statHodnota P Dolní 95%Horní 95% Hranice10,795040, ,157225,3E-089, ,85171 Nadm. výška-0,005410, ,038720, , ,

46 R EGRESNÍ ANALÝZA Pro různý počet pozorování se mohou odhadnuté regresní koeficienty b 0 a b 1 lišit. Vedle bodových odhadů regresních koeficientů lze provádět i jejich intervalové odhady. V praxi mají význam především oboustranné intervaly spolehlivosti: b i - t 1-α/2 (n-p) · s(b i ) < β i < b i + t 1-α/2 (n-p) · s(b i ), b i … bodový odhad regresního koeficientu, t 1-α/2 (n-p) … je kvantil Studentova t rozdělení, p … je počet koeficientů modelu, s(b i ) … je směrodatná chyba odhadu koeficientu b i. 46

47 R EGRESNÍ ANALÝZA Příklad: Český hydrometeorologický ústav v Praze měřil... 95% interval spolehlivosti pro koeficient b 0. b i - t 1-α/2 (n-p) · s(b i ) < β i < b i + t 1-α/2 (n-p) · s(b i ) Koeficienty Chyba stř. hodnotyt statHodnota PDolní 95%Horní 95% Hranice10,795040, ,157225,3E-089, ,85171 Nadm. výška-0,005410, ,038720, , ,00224 Interval spolehlivosti lze počítat ručně podle vzorce, nebo jej přímo přečíst z výstupu počítače. 47

48 R EGRESNÍ ANALÝZA Příklad: Český hydrometeorologický ústav v Praze měřil... 95% interval spolehlivosti pro oba koeficienty. Koeficienty Chyba stř. hodnotyt statHodnota PDolní 95%Horní 95% Hranice10,795040, ,157225,3E-089, ,85171 Nadm. výška-0,005410, ,038720, , ,00224 V nadmořské výšce 0 metrů n.m. má s pravděpodobností 95 % průměrná teplota půdy hodnotu v rozmezí 9,74 0 C až 11,85 0 C. S každým dalším metrem nadmořské výšky klesá s pravděpodobností 95 % průměrná teplota půdy o hodnotu v rozmezí od 0, C do 0, C. 48

49 R EGRESNÍ ANALÝZA A LTERNATIVNÍ MODELY Vedle regresní přímky existuje i řada dalších funkcí, jejichž koeficienty lze pomocí metody nejmenších čtverců odhadnout, Nejznámější jsou: parabola, hyperbola, logaritmická funkce, polynom. 49

50 R EGRESNÍ ANALÝZA A LTERNATIVNÍ MODELY Regresní parabola η = β 0 + β 1 x + β 2 x 2 Funkční závislost Stochastická závislost 50

51 R EGRESNÍ ANALÝZA A LTERNATIVNÍ MODELY Regresní hyperbola η = β 0 + β 1 (1/x) 51 Funkční závislost Stochastická závislost

52 R EGRESNÍ ANALÝZA A LTERNATIVNÍ MODELY Logaritmická funkce η = β 0 + β 1 · ln(x) 52 Funkční závislost Stochastická závislost

53 R EGRESNÍ ANALÝZA A LTERNATIVNÍ MODELY Exponenciální funkce η = β 0 e β 1 x 53 Funkční závislost Stochastická závislost

54 R EGRESNÍ ANALÝZA A LTERNATIVNÍ MODELY Polynom stupně n η = β 0 + β 1 x + β 2 x 2 + +β 3 x β n x n Pozn.: Na obrázku je polynom pátého stupně. 54 Funkční závislost Stochastická závislost

55 R EGRESNÍ ANALÝZA V OLBA VHODNÉHO MODELU Při volbě nejlepšího modelu lze použít dva postupy: 1. Apriorní volba – model je zvolen na základě praktické nebo teoretické znalosti typu závislosti. 2. Empirická volba – nejvhodnější model se volí posouzením bodového grafu nebo pomocí nástrojů regresní analýzy. Pokud není počet pozorování příliš velký, nemusí tento postup vést k nalezení vhodné funkce pro popis závislosti v základním souboru a popisuje pouze závislost v souboru výběrovém. 55

56 R EGRESNÍ ANALÝZA V OLBA VHODNÉHO MODELU Příklad: Český hydrometeorologický ústav v Praze měřil... Empirická volba Volba na základě grafu nemusí být vždy jednoznačná a je subjektivní. Jde o přímku (černá) nebo logaritmickou funkci (oranžová) nebo snad hyperbolu (červená)? 56

57 R EGRESNÍ ANALÝZA V OLBA VHODNÉHO MODELU Empirická volba Statistický software včetně MS Excel nabízí tzv. determinační index I 2 (anglicky se značí R 2 ). Vystihuje, jak těsně datové body přiléhají ke křivce. Nabývá hodnot. Čím více se blíží jedné, tím těsněji datové body ke křivce přiléhají. Navíc určuje, jaké procento změn vysvětlované proměnné je vysvětleno odhadnutým modelem. Čím vyšší je jeho hodnota, tím je model vhodnější. 57

58 Regresní statistika Násobné R0,83649 Hodnota spolehlivosti R0, Nastavená hodnota spolehlivosti R0, Chyba stř. hodnoty0, Pozorování9 R EGRESNÍ ANALÝZA V OLBA VHODNÉHO MODELU Příklad: Český hydrometeorologický ústav v Praze měřil... MS EXCEL: Data – Analýza – Analýza Dat – Regrese Hodnota determinačního indexu I 2 je 0, ,97 % změn průměrné teploty půdy je vysvětleno změnami nadmořské výšky. Zbylých 30,03 % je způsobeno jinými vlivy (les x louka, orientace svahu atd.). 58

59 R EGRESNÍ ANALÝZA V OLBA VHODNÉHO MODELU Příklad: Český hydrometeorologický ústav v Praze měřil... Porovnání alternativních modelů pomocí determinačního indexu I 2. V porovnání s ostatními modely je regresní přímka nejméně vhodná. Nejlepší se jeví hyperbola. Pomocí hyperboly je vysvětleno 85 % změn průměrné teploty půdy prostřednictvím změn nadmořské výšky. ModelI2I2 Hyperbola85,39% Logaritmický80,01% Přímka69,97% 59

60 R EGRESNÍ ANALÝZA V OLBA VHODNÉHO MODELU Empirická volba Při srovnávání modelů s nestejným počtem koeficientů (např. zahrnutí polynomů) je nutno používat upravený determinační index I 2 upr. (anglicky se značí R 2 adj ). Penalizuje složitější modely s více koeficienty, což samotný I 2 nedokáže. Nabývá hodnot. Čím více se blíží jedné, tím těsněji datové body ke křivce přiléhají. Čím vyšší je jeho hodnota, tím je model vhodnější. 60

61 R EGRESNÍ ANALÝZA V OLBA VHODNÉHO MODELU Empirická volba - upravený determinační index I 2 upr. Vztah mezi determinačním indexem I 2 a upraveným det. indexem I 2 upr. I 2 upr. = I 2 - (1 - I 2 )∙(p - 1)/(n - p - 2) n je počet pozorování a p je počet parametrů regresního modelu. 61

62 Regresní statistika Násobné R0,83649 Hodnota spolehlivosti R0, Nastavená hodnota spolehlivosti R0, Chyba stř. hodnoty0, Pozorování9 R EGRESNÍ ANALÝZA V OLBA VHODNÉHO MODELU Příklad: Český hydrometeorologický ústav v Praze měřil... MS EXCEL: Data – Analýza – Analýza Dat – Regrese Hodnota upraveného determinačního indexu I 2 upr. je 0, Jeho hodnota bývá nižší než hodnota I 2. 62

63 R EGRESNÍ ANALÝZA V OLBA VHODNÉHO MODELU Příklad: Český hydrometeorologický ústav v Praze měřil... Porovnání alternativních modelů pomocí upraveného determinačního indexu I 2 upr.. V porovnání s ostatními modely je regresní přímka nejméně vhodná. Nejlepší se jeví hyperbola. ModelI 2 upr. Hyperbola 83,30% Parabola (3 koeficienty)81,55% Logaritmická fce.77,15% Přímka65,68% 63

64 R EGRESNÍ ANALÝZA V OLBA VHODNÉHO MODELU Příklad: Český hydrometeorologický ústav v Praze měřil... Odhad koeficientů hyperboly v MS EXCEL: Data – Analýza – Analýza Dat – Regrese Pozn.: v programu sleduje se závislost teploty na proměnné 1/nadm. výška Regresní hyperbola má tvar ŷ = 6, ,21/x. Interpretace odhadnutých koeficientů již není tak jednoduchá jako v případě regresní přímky. Koeficienty Chyba stř. hodnotyt statHodnota P Dolní 95%Horní 95% Hranice6, , , ,141E-076, , /nadm. výška564, , , , , ,

65 R EGRESNÍ ANALÝZA V OLBA VHODNÉHO MODELU Princip jednoduchosti Protože zvolený model je zjednodušením reality, je vhodné volit model co nejjednodušší. Pokud není významný rozdíl mezi determinačními indexy I 2 resp. upravenými determinačními indexy I 2 upr. jednotlivých modelů (± 2%), je vhodné zvolit model jednodušší (menší počet koeficientů, méně složitý matematický zápis funkce). y = b 0 + b 1 x +b 2 x 2 + b 3 x 3 vs. Y = b 0 + b 1 x I 2 upr. = 87,52%vs. I 2 upr. = 85,65% 65

66 R EGRESNÍ ANALÝZA V OLBA VHODNÉHO MODELU Volba na základě znalosti studované problematiky Některé modely mají svá omezení, která způsobí, že danou závislost nepopíší správně. Příklad: Český hydrometeorologický ústav v Praze... Hyperbola nikdy nedosáhne záporných hodnot, takže nikdy nemůže vyjít průměrná teplota půdy pod 0 0 C, podobně to platí pro logaritmickou funkci (záporných hodnot dosáhne až pro hodnoty na m n.m.). Z tohoto pohledu jsou obě funkce nevhodné. Parabola dosáhne minima a pak začne opět stoupat, ve vysokých nadmořských výškách by průměrná teplota půdy paradoxně rostla. Také parabola je nevhodná. Přímku tedy nadále budeme uvažovat jako nejhodnější model. 66

67 R EGRESNÍ ANALÝZA V OLBA VHODNÉHO MODELU Nikdy nezapomínejte na bodový graf!! Ve všech čtyřech zobrazených případech metoda nejmenších čtverců shodně odhadne regresní přímku ve tvaru ŷ = 3 + 0,5x s determinačním indexem I 2 = 0,

68 R EGRESNÍ ANALÝZA V OLBA VHODNÉHO MODELU Volba modelu na základě testu Test pro zjištění, zda je složitější model (více koeficientů) vhodnější než jednodušší H 0 : složitější model nepřináší zlepšení H A : složitější model přináší zlepšení Testovací statistika: H 0 zamítáme, pokud platí: F > F 1-  (p 2 - p 1 ; n - p 2 ). S R (1) je reziduální součet čtverců jednoduššího modelu, S R (2) reziduální součet čtverců složitějšího modelu, n je počet pozorování, p 1 počet koeficientů jednoduššího modelu a p 2 počet koeficientů složitějšího modelu. 68

69 R EGRESNÍ ANALÝZA V OLBA VHODNÉHO MODELU Příklad: Český hydrometeorologický ústav v Praze měřil... Porovnáme dva modely: přímku a polynom 4. stupně pomocí testu. 69

70 R EGRESNÍ ANALÝZA V OLBA VHODNÉHO MODELU Příklad: Český hydrometeorologický ústav v Praze měřil... Porovnáme dva modely: přímku a polynom 4. stupně pomocí testu. H 0 : složitější model nepřináší zlepšení H A : složitější model přináší zlepšení S R (1) = 2,199 (přímka) S R (2) = 0,840 (pol.) p 1 = 2 p 2 = 4 ANOVA - Přímka RozdílSSMSFVýznamnost F Regrese15, , ,31120, Rezidua72, ,31410 Celkem87, ANOVA – Polynom 4. stupně RozdílSSMSFVýznamnost F Regrese46, ,620617,719530, Rezidua40,839750,20993 Celkem87,

71 R EGRESNÍ ANALÝZA V OLBA VHODNÉHO MODELU Příklad: Český hydrometeorologický ústav v Praze měřil... Testovací statistika: H 0 zamítáme, pokud platí: F > F 1-  (p 2 - p 1 ; n - p 2 ), kde F 0,95 (3;4) = 6,591. Protože testovací statistika nepadne do kritického oboru: F < 6,591, nezamítáme Ho, složitější model nepřináší zlepšení. 71

72 R EGRESNÍ ANALÝZA D IAGNOSTICKÁ KONTROLA MODELU Diagnostika modelu Nástroj sloužící k odvození obecného regresního modelu (model popisující závislost zkoumaných ukazatelů) z empirického regresního modelu (model popisující závislost vybraných hodnot zkoumaných ukazatelů). Je třeba zjistit, zda lze obecný model skutečně pro daná data vytvořit a jaké jsou jeho regresní koeficienty. K tomu slouží dva testy: 1. F-test o regresním modelu- zabývá se statistickou významností celého modelu, tedy vytvořitelností obecného regresního modelu. 2. t-testy o regresních koeficientech - zabývají se se statistickou významností jednotlivých regresních koeficientů, tedy jejich hodnotou v obecném regresním modelu. 72

73 R EGRESNÍ ANALÝZA D IAGNOSTICKÁ KONTROLA MODELU F-test o regresním modelu H 0 : zvolený model není statisticky významný, obecný model nelze vytvořit matematicky: β 0 = c; β 1 = 0 H A : zvolený model je statisticky významný, obecný model lze vytvořit matematicky : β 0 = c; β 1 ≠ 0 Testovací statistika: S T je teoretická suma čtverců, S R je reziduální suma čtverců. Kritický obor: W = {F; F 1-α (p-1;n-p} 73

74 R EGRESNÍ ANALÝZA D IAGNOSTICKÁ KONTROLA MODELU Příklad: Český hydrometeorologický ústav v Praze měřil... F-test o regresním modelu v MS EXCEL: Nástroje – Analýza Dat – Regrese Test vyhodnotíme pomocí p-hodnoty. P-hodnota = 0, < α = 0,05, takže model je statisticky významný a lze jej pro daná data použít. ANOVA - Přímka RozdílSSMSFVýznamnost F Regrese15, , ,31120, Rezidua72, ,31410 Celkem87,

75 R EGRESNÍ ANALÝZA D IAGNOSTICKÁ KONTROLA MODELU F-test o regresním modelu Pro model s více koeficienty mají hypotézy tvar: H 0 : zvolený model není statisticky významný, obecný model nelze vytvořit matematicky: β 0 = c; β 1 = 0; β 2 = 0; … ; β n = 0 H A : zvolený model je statisticky významný, obecný model lze vytvořit matematicky: β 0 = c; alespoň jeden z koeficientů se nule nerovná Příklad: Regresní parabola η = β 0 + β 1 x + β 2 x 2 H 0 : β 0 = c; β 1 = 0; β 2 = 0 H A : β 0 = c; alespoň jeden z koeficientů se nule nerovná 75

76 R EGRESNÍ ANALÝZA D IAGNOSTICKÁ KONTROLA MODELU T-testy o regresních koeficientech se provádějí pro každý koeficient zvlášť. H 0 : koeficient není statisticky významný, v obecném modelu se rovná nula; β i = 0 H A : koeficient je statisticky významný, v obecném modelu se nerovná 0; β i ≠ 0 Testovací statistika: b i je bodový odhad koeficientu, s(b i ) je směrodatná chyba odhadu regresního koeficientu. Kritický obor: W = {|t|; t 1-α/2 (n-p)} 76

77 R EGRESNÍ ANALÝZA D IAGNOSTICKÁ KONTROLA MODELU Příklad: Český hydrometeorologický ústav v Praze měřil... t-test o regresním koeficientu β 0 v MS EXCEL: Nástroje – Analýza Dat – Regrese H 0 : β 0 = 0 vs. H A : β 0 ≠ 0 Koeficienty Chyba stř. hodnotyt statHodnota P Dolní 95%Horní 95% Hranice10,795040, ,157225,3E-089, ,85171 Nadm. výška-0,005410, ,038720, , ,00224 P-hodnota = 0, < α = 0,05, takže koeficient β 0 je statisticky významný. V obecném modelu bude zapsán hodnotou bodového odhadu 10,

78 R EGRESNÍ ANALÝZA D IAGNOSTICKÁ KONTROLA MODELU Příklad: Český hydrometeorologický ústav v Praze měřil... t-test o regresním koeficientu β 1 v MS EXCEL: Nástroje – Analýza Dat – Regrese H 0 : β 1 = 0 vs. H A : β 1 ≠ 0 Koeficienty Chyba stř. hodnotyt statHodnota P Dolní 95%Horní 95% Hranice10,795040, ,157225,3E-089, ,85171 Nadm. výška-0,005410, ,038720, , ,00224 P-hodnota = 0, < α = 0,05, takže i koeficient β 1 je statisticky významný. V obecném modelu bude zapsán hodnotou bodového odhadu -0,

79 R EGRESNÍ ANALÝZA D IAGNOSTICKÁ KONTROLA MODELU Příklad: Český hydrometeorologický ústav v Praze měřil... t-testy o regresních koeficientech β 0 a β 1 v MS EXCEL: Nástroje – Analýza Dat – Regrese Koeficienty Chyba stř. hodnotyt statHodnota PDolní 95%Horní 95% Hranice10,795040, ,157225,3E-089, ,85171 Nadm. výška-0,005410, ,038720, , ,00224 Vyhodnocení statistické významnosti koeficientů je možné i podle intervalů spolehlivosti. Padne-li do odpovídajícího intervalu 0, pak je koeficient statisticky nevýznamný. Oba koeficienty jsou statisticky významné, protože ani v jenom z 95 % intervalů spolehlivosti se 0 nenachází. 79

80 R EGRESNÍ ANALÝZA D IAGNOSTICKÁ KONTROLA MODELU Příklad: Český hydrometeorologický ústav v Praze měřil... Diagnostickou kontrolou modelu bylo zjištěno, že obecný regresní model lze odvodit (F-test o regresním modelu). Diagnostickou kontrolou modelu bylo zjištěno, že regresní koeficienty jsou významné, a tedy je do regresního modelu zapíšeme jejich bodovými odhady (t-testy o regresních koeficientech). Obecný model má konečný tvar: η = 10,795 – 0,00541 neboli průměrná teplota půdy = 10, ,00541·nadmořská výška. Pozn. Pokud v t-testu o regresním koeficientu platí Ho, pak se do obecného modelu zapíše hodnota koeficientu 0! 80

81 R EGRESNÍ ANALÝZA D IAGNOSTICKÁ KONTROLA MODELU t-testy je nutno provést pro všechny regresní koeficienty. V mnoha případech vychází koeficient β 0 statisticky nevýznamný (β 0 = 0). U regresní přímky je to logické! Příklad: Sleduji–li závislost počtu vypitých piv na váze pijáka, tak je jasné, že piják s hmotností 0 kg vypije 0 piv. Příklad: Sleduji-li závislost počtu dětí ve školkách na počtu školek ve městě, tak je jasné, že město, které nemá ani jednu školku, nebude mít žádné dítě ve vlastní školce. V takovém případě lze zlepšit odhad modelu nastavením nulového koeficientu β 0 : Nástroje – Analýza – Analýza Dat – Regrese zaškrtnout políčko „konstanta je nula“). 81

82 R EGRESNÍ ANALÝZA D IAGNOSTICKÁ KONTROLA MODELU t-testy je nutno provést pro všechny regresní koeficienty. Pokud vyjde u regresní přímky koeficient β 1 statisticky nevýznamný znamená to, že proměnné nejsou závislé. V takovém případě vyjde i v F-testu, že model není významný. Jinými slovy: je-li β 1 = 0, pak má regresní přímka nulovou směrnici a závislá proměnná y nabývá stále stejné hodnoty bez ohledu na hodnotu nezávislé proměnné x. 82

83 R EGRESNÍ ANALÝZA D IAGNOSTICKÁ KONTROLA MODELU Příklad: Český hydrometeorologický ústav v Praze měřil... Odhad koeficientů polynomu 4. stupně (ŷ = b 0 + b 1 x + b 2 x 2 +b 3 x 3 + b 4 x 4 ) Hodnota determinačního indexu I 2 roste s počtem koeficientů, proto je nutné modely s více koeficienty (zde jich je 5) porovnávat pomocí upraveného determinačního indexu I 2 upr. = 0,7706. Regresní statistika Násobné R 0, Hodnota spolehlivosti R 0, Nastavená hodnota spolehlivosti R 0, Chyba stř. hodnoty 0, Pozorování 9 ModelI 2 upr. Hyperbola83,30% Parabola81,55% Logaritm. fce.77,15% Polynom 4. st.77,06% Přímka65,68% 83

84 R EGRESNÍ ANALÝZA D IAGNOSTICKÁ KONTROLA MODELU Příklad: Český hydrometeorologický ústav v Praze měřil... Odhad koeficientů polynomu 4. stupně Obecně je velmi nevhodné používat polynomy vyšších stupňů. Dobře popisují pouze výběrová data. 84

85 R EGRESNÍ ANALÝZA D IAGNOSTICKÁ KONTROLA MODELU Příklad: Český hydrometeorologický ústav v Praze měřil … Odhad koeficientů polynomu 4. stupně: t-testy H 0 : zvolený model není statisticky významný (β 0 = c; β 1 = 0; β 2 = 0; β 3 = 0; β 4 = 0) H A : zvolený model je statisticky významný (β 0 = c; alespoň jeden z koeficientů se nule nerovná) P-hodnota = 0,03644 < α = 0,05, takže model je statisticky významný a lze jej pro daná data použít. ANOVA – Polynom 4. stupně RozdílSSMSFVýznamnost F Regrese46, , , , Rezidua40,839750, Celkem87,

86 R EGRESNÍ ANALÝZA D IAGNOSTICKÁ KONTROLA MODELU Příklad: Český hydrometeorologický ústav v Praze měřil... Odhad koeficientů polynomu 4. stupně: t-testy Na hladině významnosti α = 0,05 jsou dle t-testu všechny koeficienty β 0, β 1, β 2, β 3, β 4 statisticky nevýznamné. Regresní rovnice by měla tvar ŷ = 0 + 0x + 0x 2 + 0x 3 + 0x 4, tedy ŷ = 0. Tento jev často nastává u polynomů vyšších stupňů. Doporučením je snížení stupně polynomu (redukce koeficientů). Koeficienty Chyba stř. hodnotyt statHodnota P Hranice7, , , , nad0, , , , nad^2-0, , , , nad^39,95695E-071,6971E-060, , nad^4-7,2728E-101,176E-09-0, ,

87 Lineární závislost Korelační koeficient a Spearmanův korelační koeficient pořadí Empirický a obecný regresní model Deterministická složka Náhodná složka Regresní koeficienty Metoda nejmenších čtverců Determinační index a upravený det. index Princip jednoduchosti Diagnostická kontrola modelu 87 K ORELAČNÍ A R EGRESNÍ ANALÝZA D ŮLEŽITÉ POJMY – 8. PŘEDNÁŠKA


Stáhnout ppt "S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem"

Podobné prezentace


Reklamy Google