ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Slides:



Advertisements
Podobné prezentace
Korelace a regrese Karel Zvára 1.
Advertisements

Úvod do analýzy rozptylu
kvantitativních znaků
Testování neparametrických hypotéz
Rovnice roviny Normálový tvar rovnice roviny
Odhady parametrů základního souboru
Cvičení 6 – 25. října 2010 Heteroskedasticita
4EK211 Základy ekonometrie Autokorelace Cvičení /
Lineární regresní analýza Úvod od problému
ZÁKLADY EKONOMETRIE 2. cvičení KLRM
L OTKA -V OLTERRA M ODEL P REDÁTOR K OŘIST KMA/MM Kamila Matoušková V Plzni, 2009.
Úvod do regresní analýzy
Regresní analýza a korelační analýza
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.
kvantitativních znaků
Obecný lineární model Analýza kovariance Nelineární modely
Základy ekonometrie Cvičení září 2010.
Základy ekonometrie Cvičení 3 4. října 2010.
Lineární regrese.
Regrese Aproximace metodou nejmenších čtverců
Simultánní rovnice Tomáš Cahlík
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Charakteristiky variability
Korelace a elaborace aneb úvod do vztahů proměnných
Lineární regrese.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Závislost dvou kvantitativních proměnných
Biostatistika 6. přednáška
Lineární regrese kalibrační přímky
Další spojitá rozdělení pravděpodobnosti
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Princip maximální entropie
Experimentální fyzika I. 2
MATEMATICKÁ STATISTIKA
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Základy ekonometrie 4EK211
2. Vybrané základní pojmy matematické statistiky
8. Kontingenční tabulky a χ2 test
Biostatistika 8. přednáška
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
Korelace.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Aplikovaná statistika 2. Veronika Svobodová
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
IV..
Aplikovaná statistika 2.
REGRESNÍ ANALÝZA Vysoká škola technická a ekonomická v Českých Budějovicích Institute of Technology And Business In České Budějovice.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Základy zpracování geologických dat R. Čopjaková.
Dvojrozměrné (vícerozměrné) statistické soubory Karel Mach.
Elektronické učební materiály - II. stupeň Matematika Autor: Mgr. Radek Martinák FUNKCE – lineární Co znamená lineární? Jak souvisí lineární funkce s přímou.
Metody zkoumání závislosti numerických proměnných
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.
Homogenita meteorologických pozorování
Základy zpracování geologických dat Rozdělení pravděpodobnosti
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Parciální korelace Regresní analýza
Neparametrické testy pro porovnání polohy
jednoduchá regrese kvadratický Y=b0+b1X+b2X 2
ANALÝZA A KLASIFIKACE DAT
Lineární regrese.
7. Kontingenční tabulky a χ2 test
Základy statistiky.
Transkript prezentace:

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN V dokumentu 7a_korelacni_a_regresni_analyza jsme řešili rozdíl mezi korelační a regresní analýzou. Budeme se teď věnovat pouze lineárnímu vztahu dvou veličin, protože je nejjednodušší a velmi často jej lze použít aspoň přibližně. Dále přijmeme předpoklad, že sledované veličiny jsou normální. V dalším textu se budeme zabývat speciálním případem REGRESNÍ ANALÝZY - metodou lineární regrese.

Základy lineární regrese Regrese je velmi často užívaná statistická metoda, která se zabývá problémem vysvětlení změn jedné veličiny závislostí na jedné nebo více jiných veličinách. Uvažujme nejjednodušší případ, kdy vysvětlujeme veličinu Y lineární závislostí na jedné veličině X.

Lineární regrese Vidíme, že s rostoucí hodnotou veličiny x se zhruba lineárně mění i hodnota Y, body na obrázku kolísají kolem myšlené přímky, kterou bychom mohli naměřenými body proložit. Hodnoty veličiny Yi můžeme vyjádřit jako součet dvou složek: Yi = β0 + β1xi + εi , kde i = 1,2,…,n (1) β0, β1 jsou neznámé koeficienty určující lineární závislost εi náhodná kolísání způsobená nepřesností měření, biologickou variabilitou a dalšími rušivými faktory Pokud střední hodnoty náhodného kolísání jsou nulové, pak E(εi) = 0 a rovnici (1) můžeme přepsat E(Y | X = xi) = E(Yi) = β0 + β1xi (2) čili střední hodnoty náhodných veličin Yi za podmínky, že veličina X má hodnotu xi, leží na přímce dané rov. (2).

Lineární regrese Rovnice (1) a (2) formulují lineární regresní model jako vyjádření naší představy o závislosti veličiny Y na veličině X. - X je vysvětlující proměnná (regresor) - Y je vysvětlovaná proměnná. Neznámé koeficienty β0 , β1jsou parametry regresního modelu a říkáme jim regresní koeficienty. Odhad regresních koeficientů β0 a β1 z dat je jednou ze základních úloh regresní analýzy: potřebujeme nalézt takové hodnoty b0, b1, které by určovaly přímku Ŷi = b0 + b1x1 co nejlépe prokládající naměřená data. Hodnoty b0 , b1 jsou pak odhady regresních koeficientů β0 , β1 Ŷ je odhadem E( Y|x = xi) Co nejlepší proložení může být formulováno různými způsoby, nejčastěji se užívá metoda nejmenších čtverců (MNČ) (viz dále).

Lineární regrese - metoda nejmenších čtverců MNČ znamená, že hledáme takové hodnoty b0 (úsek, který vytíná přímka na ose Y) a b1 (směrnice přímky), aby součet čtverců odchylek pozorovaných hodnot Yi od hodnot Ŷi Se byl co nejmenší: Metodu nejmenších čtverců vysvětluje následující obrázek. Řešíme úlohu, jak volit hodnoty b0 a b1, aby součet ploch vyznačených čtverců byl co nejmenší.

Nulová hypotéza Dokazovaná hypotéza o lineární závislosti obou veličin, jejímž modelem je regresní přímka, stojí proti nulové hypotéze, která říká, že mezi veličinami neexistuje žádný vztah a jejich uspořádání lze vysvětlit pouhou náhodou. Hypotézu nezávislosti veličin H0 modeluje přímka rovnoběžná s osou x protínající osu y ve střední hodnotě a procházející bodem Pokud bude statistický test významný, zamítáme hypotézu H0 a přijímáme hypotézu o lineární závislosti obou veličin. Princip testu spočívá v porovnání velikosti regresního a reziduálního rozptylu. Regresní rozptyl je vypočten pomocí vzdáleností od přímky H0 k regresní přímce, reziduální rozptyl pomocí vzdáleností od regresní přímky k naměřeným hodnotám - viz obrázek.

Lineární regrese H0 pro výpočet Reziduálního rozptylu pro výpočet Regresního rozptylu Y – vysvětlovaná proměnná H0 regresní přímka X - vysvětlující proměnná

LINEÁRNÍ REGRESNÍ MODEL - příklad r. 1886 Francis Galton vytvořil model závislosti výšky prvorozených synů na výšce jejich otců v této práci použil termín REGRESE začal se používat jako název metody Testujeme hypotézu H0: výška syna nezávisí na výšce otce proti hypotéze H1: výška syna je lineárně závislá na výšce otce cílem je zjistit, zda rozdíly mezi modely je možno vysvětlit pomocí náhody Mějme dva matematické modely (v našem případě dvě přímky): první přímka vyjadřuje nezávislost, je rovnoběžná s osou X (H0) druhou přímku (H1) zkonstruujeme pomocí MNČ tak, aby svislé vzdálenosti pozorovaných hodnot byly od přímky co nejmenší (svislé proto, že za závislou považujeme veličinu Y)

Model lineární regrese - vztah výšky otce a syna x - nezávisle proměnná y - závisle proměnná i – jednotlivá pozorování reziduum – odchylka od modelu x

Lineární regrese minimalizujeme otec → syn =otec+zkreslení Co se stane když zaměním x a y ? minimalizujeme syn → otec =syn+zkreslení Můžeme předpokládat kauzalitu? Jakou?

LINEÁRNÍ REGRESNÍ MODEL Cílem regresního modelu je porovnat rozdíl mezi - modelem hypotetického rozdělení H0: výška syna nezávisí na výšce otce - a modelem HA: výška syna je lineárně závislá na výšce otce. H0 jsme stanovili jako přímku Y = b0 (b1 = 0) HA je regresní přímka Y = β0 + β1xi + εi Součet čtverců odchylek závisle proměnné Y od jejího odhadu můžeme rozdělit na dvě části: variabilitu vysvětlenou regresním modelem (rozdíl mezi HA a H0) a na část, kterou model nevysvětluje, která zbývá, tedy je residuální (rozdíl mezi HA a naměřenými hodnotami - tedy ε) Analogicky jako u analýzy rozptylu bude testovací statistika podíl součtu čtverců odchylek dělených počtem stupňů volnosti.

LINEÁRNÍ REGRESNÍ MODEL Testovací statistika se vypočte jako podíl - čtverců očekávaných odchylek HA - H0 dělený počtem stupňů volnosti - a čtverců reziduálního rozptylu dělený počtem stupňů volnosti. počet stupňů volnosti v čitateli vypočteme jako počet parametrů regresního modelu mínus počet parametrů odhadovaných u H0 (p - 1) počet stupňů volnosti ve jmenovateli jako počet naměřených hodnot mínus počet parametrů regresního modelu (n - p) n … počet měření p … počet parametrů regresní přímky: p = 2 1 … počet odhadovaných parametrů hypotézy H0

Zobrazení vztahu dvou nezávislých spojitých veličin Dvojice náhodných SPOJITÝCH VELIČIN X a Y. Jejich sdružené rozložení má dvourozměrnou hustotu f(x,y)

Sdružená hustota dvou závislých veličin

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN Třírozměrný graf sdružené hustoty(sdruženého rozložení) dvou veličin na předchozím obrázku vyjadřuje závislost obou náhodných veličin. Průmětu jedné veličiny do roviny říkáme marginální hustota. Rozložení jedné veličiny např. X pouze u těch objektů, pro které platí Y = y (druhá veličina = konstantě) je tzv. podmíněném rozložení a můžeme si ho představit jako řez celkovým rozložením v bodu Y = y. Tyto podmíněné funkce hustoty jsou na rozdíl od marginální hustoty obvykle užší a to tím více, čím pevnější je vazba mezi X a Y.