Korelace a regrese Karel Zvára 1.

Slides:



Advertisements
Podobné prezentace
ZÁKLADY EKONOMETRIE 6. cvičení Autokorelace
Advertisements

Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
kvantitativních znaků
Testování neparametrických hypotéz
Testování statistických hypotéz
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
Odhady parametrů základního souboru
Cvičení 6 – 25. října 2010 Heteroskedasticita
4EK211 Základy ekonometrie Autokorelace Cvičení /
Lineární regresní analýza Úvod od problému
ZÁKLADY EKONOMETRIE 7. cvičení Heteroskedasticita
Analýza variance (Analysis of variance)
Úvod do regresní analýzy
Regresní analýza a korelační analýza
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Porovnání průměrů více než dvou normálních rozdělení
DATA  INFORMACE Statistická analýza je založena na zhušťování informace – tj. jak s co nejmenšího množství vhodně zvolených údajů vytěžit maximum relevantních.
25. října 2004Statistika (D360P03Z) 4. předn.1 Statistika (D360P03Z) akademický rok 2004/2005 doc. RNDr. Karel Zvára, CSc. KPMS MFF UK
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.
Základy ekonometrie Cvičení září 2010.
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Základy ekonometrie Cvičení října 2010.
Základy ekonometrie Cvičení 3 4. října 2010.
MÍRY ZÁVISLOSTI Oddělení antropomotoriky, rekreologie a metodologie Katedra kinantropologie, humanitních věd a managementu sportu © 2009 FTVS UK.
Lineární regrese.
Simultánní rovnice Tomáš Cahlík
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Korelace a elaborace aneb úvod do vztahů proměnných
Lineární regrese.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Závislost dvou kvantitativních proměnných
Biostatistika 6. přednáška
Další spojitá rozdělení pravděpodobnosti
Biostatistika 7. přednáška
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Experimentální fyzika I. 2
V. Analýza rozptylu ANOVA.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie psychodiagnostiky a psychometrie
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Normální rozdělení a ověření normality dat
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
Normální rozdělení. U 65 náhodně vybraných živě narozených dětí byla zkoumána jejich porodní hmotnost [g] a délka [cm].
Korelace.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Úvod do praktické fyziky Seminář pro I.ročník F J. Englich, ZS 2003/04.
Aplikovaná statistika 2. Veronika Svobodová
1. cvičení
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
IV..
Základy zpracování geologických dat R. Čopjaková.
Dvojrozměrné (vícerozměrné) statistické soubory Karel Mach.
Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)
Metody zkoumání závislosti numerických proměnných
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.
Testování hypotéz párový test
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Parciální korelace Regresní analýza
Neparametrické testy pro porovnání polohy
jednoduchá regrese kvadratický Y=b0+b1X+b2X 2
Lineární regrese.
7. Kontingenční tabulky a χ2 test
Transkript prezentace:

Korelace a regrese Karel Zvára 1

Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou náhodných veličin neslouží k předpovědi způsob (tvar) závislosti náhodné veličiny na jiné (nenáhodné) veličině: regrese možnost předpovědi příklad: výška otce, výška jeho syna (v dospělosti) korelace: jak těsně spolu souvisejí? populace - všechny dvojice (otec, syn) regrese: lze z výšky otce odhadnout výšku syna? řada populací - synové otců vysokých 170 cm, 171 cm ...

Pearsonův korelační koeficient měří sílu lineární závislosti spojitých veličin vždy platí: -1 X,Y 1 v případě normálního rozdělení platí: nezávislost X, Y X,Y = 0 odhad pomocí (za předpokladu normálního rozdělení x, y) nezávislost zamítáme, pokud | t |  t1-/2(n-2), kde

Příklady

Spearmanův korelační koeficient místo naměřených hodnot (xi, yi) jejich pořadí (Ri, Qi), což vede k hypotéza nezávislosti spojitých veličin X, Y se zamítá, je-li | rS |  r(n) (tabelováno pro n do 30) (přibližné řešení, zvl. pro velké n) není třeba znát naměřené hodnoty, stačí jejich pořadí při pochybnosti o normalitě

Princip regresní závislosti zabýváme se dvojicí veličin: Y (vysvětlovaná, závisle proměnná) X (vysvětlující, nezávisle proměnná, regresor) hledáme vysvětlení chování Y při dané hodnotě X=x podmíněné rozdělení Y při daném X=x (změní se, když změníme x?) lineární regrese (předpoklady): populační průměr Y při dané hodnotě X=x je lineární funkcí x variabilita (rozptyl) podmíněného rozdělení Y nezávisí na X=x

Porodní hmotnost hochů podle porodní délky

Porodní hmotnost a délka

Matematický popis regresní závislosti  i=1,2,...,n  - neznámé parametry i - náhodná chyba N02) (normální rozdělení) 2 - neznámý parametr (rozptyl) x1, ..., xn - dané hodnoty proměnné X y1, ..., yn - naměřené (náhodné) hodnoty proměnné Y  - průměrná změna Y při jednotkové změně X  - průměrná hodnota Y při X=0

Odhad parametrů metoda nejmenších čtverců: zvolit odhady b0, b1 tak, byl minimální součet čtverců odchylek: toto minimum se nazývá reziduální součet čtverců (Se) odhad rozptylu : b1 odhad průměrné změny závisle proměnné Y při jednotkové změně nezávisle proměnné X

Modelová představa

Příklad (úmrtnost na melanom) pozorování: jednotlivé státy USA MORT: úmrtnost na 10 000 000 mužů (bělochů) na maligní melanom kůže v letech 1950-1959 LAT: zeměpisná šířka státu LONG: zeměpisná délka státu OCEAN: zda na břehu oceánu (OCEAN=1, má-li oceánské pobřeží, OCEAN=0 jinak ) lze nestejnou úmrtnost vysvětlit polohou jednotlivých států?

Příklad (těsná závislost)

Příklad (slabá závislost)

Statistické vlastnosti odhadů H0: (Y nezávisí na x):  (tj. yi=+i) zamítáme, když odhad b1 se dostatečně liší od 0 použijeme H0 zamítneme ve prospěch oboustranné alternativy H1, bude-li | T |  t1-/2(n - 2) ekvivalentní testu H0: x,y= 0 , tj. nezávislosti náhodných veličin X,Y

Příklad (závislost na zeměpisné délce) Se=52 439,0 s2 = 1 115,7 R2=0,022 přímka: odhad MORT = 183,5 + 0,3363 • LONG závislost není průkazná na hladině =0,05 R2 je čtverec korel. koef. MORT a LONG (0,152=0,0225)

Příklad (závislost na zeměpisné šířce) Se=17 173,01 s2 = 365,38 R2=0,680 přímka: odhad MORT = 389,2 - 5,978 • LAT závislost je průkazná na hladině =0,05 (i na menších) změna o 10 stupňů na sever (zeměpisná šířka vzroste) mortalita v průměru o 60 osob na 10 000 000 menší

Příklad (tabulka analýzy rozptylu, závislost úmrtnosti na zeměpisné šířce) celková variabilita = vysvětlená regresí + reziduální koeficient determinace obecně (var. vysvětlená/celková):

Mnohonásobná lineární regrese lineární závislost na několika regresorech: yi =  xi1 + xi2 + ... + kxik + ei j - průměrná změna Y při jednotkové změně Xj a nezměněných hodnotách ostatních regresorů H0: j =0 znamená, že můžeme j-tý regresor ze závislosti vyloučit (nevypovídá o chování Y více, než co vypovídají ostatní regresory v modelu – test přidané informace) H0: 1 = 2 = ... = k = 0 znamená, že chování Y nezávisí na žádném z regresorů, testuje se pomocí tabulky analýzy rozptylu pro k=1 jsou obě hypotézy ekvivalentní

Příklad (závislost na délce i šířce) Se=16 927,7 s2 = 367,99 R2=0,684 neprokázali jsme, že by znalost LONG vylepšila předpověď založenou na LAT (p=41,8 %) závislost na LAT byla: Se=17 173,01 s2 = 365,38 R2=0,680

Příklad (opravdu na délce nezáleží?) Se=14 139,5 s2 = 314,21 R2=0,736 bez kvadratického členu bylo: Se=16 927,7 s2 = 367,99 R2=0,684

Příklad (pobřežní státy jsou jiné ?) Se=12 357,0 s2 = 268,63 R2=0,770 v kvadratickém modelu bylo: Se=14 139,5 s2 = 314,21 R2=0,736

Příklad (analýza kovariance)

Umělé proměnné v regresi umělá proměnná: nabývá hodnot 0 - 1 jediný regresor - umělá proměnná dvouvýběrový t-test několik umělých proměnných k vyjádření několika úrovní nominálního znaku analýza rozptylu jednoduchého třídění spojitý regresor, vůči kterému adjustujeme chování Y, ostatní regresory umělé proměnné analýza kovariance regresní diagnostika: metody (zejm. grafické) k ověření předpokladů regrese (tvar závislosti, stálý rozptyl, nezávislost pozorování, normální rozdělení)

Statistické modely závislosti nezávisle závisle proměnná proměnná (é) spojitá nominální regrese, korelace logistická regrese (pro 0-1) analýza rozptylu kontingenční tabulka