Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.

Slides:



Advertisements
Podobné prezentace
ZÁKLADY EKONOMETRIE 6. cvičení Autokorelace
Advertisements

Korelace a regrese Karel Zvára 1.
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
kvantitativních znaků
Testování neparametrických hypotéz
Testování statistických hypotéz
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
Odhady parametrů základního souboru
Cvičení 6 – 25. října 2010 Heteroskedasticita
4EK211 Základy ekonometrie Autokorelace Cvičení /
Lineární regresní analýza Úvod od problému
ZÁKLADY EKONOMETRIE 7. cvičení Heteroskedasticita
Analýza variance (Analysis of variance)
Úvod do regresní analýzy
Regresní analýza a korelační analýza
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Porovnání průměrů více než dvou normálních rozdělení
DATA  INFORMACE Statistická analýza je založena na zhušťování informace – tj. jak s co nejmenšího množství vhodně zvolených údajů vytěžit maximum relevantních.
25. října 2004Statistika (D360P03Z) 4. předn.1 Statistika (D360P03Z) akademický rok 2004/2005 doc. RNDr. Karel Zvára, CSc. KPMS MFF UK
Základy ekonometrie Cvičení září 2010.
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Základy ekonometrie Cvičení října 2010.
Základy ekonometrie Cvičení 3 4. října 2010.
Lineární regrese.
Simultánní rovnice Tomáš Cahlík
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Korelace a elaborace aneb úvod do vztahů proměnných
Lineární regrese.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Závislost dvou kvantitativních proměnných
Biostatistika 6. přednáška
Další spojitá rozdělení pravděpodobnosti
Biostatistika 7. přednáška
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Experimentální fyzika I. 2
V. Analýza rozptylu ANOVA.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie psychodiagnostiky a psychometrie
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Normální rozdělení a ověření normality dat
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
Normální rozdělení. U 65 náhodně vybraných živě narozených dětí byla zkoumána jejich porodní hmotnost [g] a délka [cm].
Korelace.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Úvod do praktické fyziky Seminář pro I.ročník F J. Englich, ZS 2003/04.
Aplikovaná statistika 2. Veronika Svobodová
1. cvičení
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
IV..
REGRESNÍ ANALÝZA Vysoká škola technická a ekonomická v Českých Budějovicích Institute of Technology And Business In České Budějovice.
Základy zpracování geologických dat R. Čopjaková.
Dvojrozměrné (vícerozměrné) statistické soubory Karel Mach.
Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)
Metody zkoumání závislosti numerických proměnných
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.
Opakování – přehled metod
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Parciální korelace Regresní analýza
Neparametrické testy pro porovnání polohy
jednoduchá regrese kvadratický Y=b0+b1X+b2X 2
Lineární regrese.
7. Kontingenční tabulky a χ2 test
Transkript prezentace:

Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti náhodné veličiny na jiné veličině: regrese možnost předpovědi příklad: výška otce, výška jeho syna (v dospělosti) korelace: jak těsně spolu souvisejí ? populace - všechny dvojice (otec, syn) regrese: lze z výšky otce odhadnout výšku syna ? řada populací - synové otců vysokých 170 cm, 171 cm ...

Pearsonův korelační koeficient měří sílu lineární závislosti spojitých veličin vždy platí: -1 X,Y 1 v případě normálního rozdělení platí: nezávislost X, Y X,Y = 0 odhad pomocí nezávislost zamítáme, pokud | t |  t1-/2(n-2), kde

Příklady

Spearmanův korelační koeficient místo naměřených hodnot (xi, yi) jejich pořadí (Ri, Qi), což vede k hypotéza nezávislosti spojitých veličin X, Y se zamítá, je-li | rS |  r(n) (tabelováno pro n do 30) není třeba znát naměřené hodnoty, stačí jejich pořadí při pochybnosti o normalitě

Princip regresní závislosti zabýváme se dvojicí veličin: Y (vysvětlovaná, závisle proměnná) X (vysvětlující, nezávisle proměnná, regresor) hledáme vysvětlení chování Y při dané hodnotě X=x podmíněné rozdělení Y při daném X=x (změní se, když změníme x?) lineární regrese (předpoklady): populační průměr Y při dané hodnotě X=x je lineární funkcí x variabilita (rozptyl) podmíněného rozdělení Y nezávisí na X=x

Porodní hmotnost podle porodní délky

Porodní hmotnost a délka

Matematický popis regresní závislosti i=1,2,...,n  - neznámé parametry i - náhodná chyba N02) (normální rozdělení) 2 - neznámý parametr (rozptyl) x1, ..., xn - dané hodnoty proměnné X y1, ..., yn - naměřené (náhodné) hodnoty proměnné Y  - průměrná změna Y při jednotkové změně X  - průměrná hodnota Y při X=0

Odhad parametrů metoda nejmenších čtverců: zvolit odhady b0, b1 tak, byl minimální součet čtverců odchylek: toto minimum se nazývá reziduální součet čtverců (Se) odhad rozptylu :

Modelová představa

Příklad (úmrtnost na melanom) pozorování: jednotlivé státy USA MORT: úmrtnost na 10 000 000 obyvatel na maligní melanom kůže v letech 1950-1959 LAT: zeměpisná šířka státu LONG: zeměpisná délka státu POP: počet obyvatel (v milionech) OCEAN: zda na břehu oceánu lze nestejnou úmrtnost vysvětlit polohou jednotlivých států ?

Příklad (těsná závislost)

Příklad (slabá závislost)

Statistické vlastnosti odhadů H0 (Y nezávisí na x):  (tj. yi=+ei) zamítáme, když odhad b1 se dostatečně liší od 0 použijeme H0 zamítneme ve prospěch oboustranné alternativy H1, bude-li | T |  t1-/2(n - 2) ekvivalentní testu H0: x,y= 0 , tj. nezávislosti náhodných veličin X,Y

Příklad (závislost na zeměpisné délce) Se=52 439,0 s2 = 1 115,7 R2=0,022 přímka: odhad MORT = 183,5 + 0,3363 • LONG závislost není průkazná na hladině =0,05 změna o 10 stupňů na východ (zem. délka vzroste) (mortalitav průměru o 3 osoby na 10 000 000 větší)

Příklad (závislost na zeměpisné šířce) Se=17 173,01 s2 = 365,38 R2=0,680 přímka: odhad MORT = 389,2 - 5,978 • LAT závislost je průkazná na hladině =0,05 (i na menších) změna o 10 stupňů na sever (zeměpisná šířka vzroste) mortalitav průměru o 60 osob na 10 000 000 menší

Příklad (tabulka analýzy rozptylu, závislost úmrtnosti na zeměpisné šířce) celková variabilita = vysvětlená regresí + reziduální koeficient determinace:

Mnohonásobná lineární regrese lineární závislost na několika regresorech: yi =  xi1 + xi2 + ... + k xik + ei j - průměrná změna Y při jednotkové změně Xj a nezměněných hodnotách ostatních regresorů H0: j =0 znamená, že můžeme j-tý regresor ze závislosti vyloučit (nevypovídá o chování Y více, než co vypovídají ostatní regresory v modelu – test přidané informace) H0: 1 = 2 = ... = k = 0 znamená, že chování Y nezávisí na žádném z regresorů, testuje se pomocí tabulky analýzy rozptylu pro k=1 jsou obě hypotézy ekvivalentní

Příklad (závislost na délce i šířce) neprokázali jsme, že by znalost LONG vylepšila předpověď založenou na LAT (p=41,8 %) závislost na LAT byla: Se=16 927,7 s2 = 367,99 R2=0,684 Se=17 173,01 s2 = 365,38 R2=0,680

Příklad (opravdu na délce nezáleží?) Se=14 139,5 s2 = 314,21 R2=0,736 bez kvadratického členu bylo: Se=16 927,7 s2 = 367,99 R2=0,684

Příklad (pobřežní státy jsou jiné ?) Se=12 357,0 s2 = 268,63 R2=0,770 v kvadratickém modelu bylo: Se=14 139,5 s2 = 314,21 R2=0,736

Příklad ( analýza kovariance)

Umělé proměnné v regresi umělá proměnná: nabývá hodnot 0 - 1 jediný regresor - umělá proměnná dvouvýběrový t test několik umělých proměnných k vyjádření několika úrovní nominální veličiny analýza rozptylu jednoduchého třídění spojitý regresor, vůči kterému adjustujeme chování Y, ostatní regresory umělé proměnné analýza kovariance regresní diagnostika: metody (zejm. grafické) k ověření předpokladů regrese (tvar závislosti, stálý rozptyl, nezávislost pozorování, normální rozdělení)

Statistické modely závislosti nezávisle závisle proměnná proměnná (é) spojitá nominální regrese, korelace logistická regrese (pro 0-1) analýza rozptylu kontingenční tabulka