Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.

Slides:

Advertisements

Podobné prezentace

ZÁKLADY EKONOMETRIE 6. cvičení Autokorelace

Advertisements

Korelace a regrese Karel Zvára 1.

Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.

kvantitativních znaků

Testování neparametrických hypotéz

Testování statistických hypotéz

NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ

Odhady parametrů základního souboru

Cvičení 6 – 25. října 2010 Heteroskedasticita

4EK211 Základy ekonometrie Autokorelace Cvičení /

Lineární regresní analýza Úvod od problému

ZÁKLADY EKONOMETRIE 7. cvičení Heteroskedasticita

Analýza variance (Analysis of variance)

Úvod do regresní analýzy

Regresní analýza a korelační analýza

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Porovnání průměrů více než dvou normálních rozdělení

DATA  INFORMACE Statistická analýza je založena na zhušťování informace – tj. jak s co nejmenšího množství vhodně zvolených údajů vytěžit maximum relevantních.

25. října 2004Statistika (D360P03Z) 4. předn.1 Statistika (D360P03Z) akademický rok 2004/2005 doc. RNDr. Karel Zvára, CSc. KPMS MFF UK

Základy ekonometrie Cvičení září 2010.

8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.

Základy ekonometrie Cvičení října 2010.

Základy ekonometrie Cvičení 3 4. října 2010.

Lineární regrese.

Simultánní rovnice Tomáš Cahlík

Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.

Korelace a elaborace aneb úvod do vztahů proměnných

Lineární regrese.

REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond

Lineární regresní analýza

Závislost dvou kvantitativních proměnných

Biostatistika 6. přednáška

Další spojitá rozdělení pravděpodobnosti

Biostatistika 7. přednáška

Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.

Odhad metodou maximální věrohodnost

Experimentální fyzika I. 2

V. Analýza rozptylu ANOVA.

Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.

Teorie psychodiagnostiky a psychometrie

Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.

Normální rozdělení a ověření normality dat

Pearsonův test dobré shody chí kvadrát

Biostatistika 8. přednáška

Jednoduchý lineární regresní model Tomáš Cahlík 2. týden

Normální rozdělení. U 65 náhodně vybraných živě narozených dětí byla zkoumána jejich porodní hmotnost [g] a délka [cm].

Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0

Úvod do praktické fyziky Seminář pro I.ročník F J. Englich, ZS 2003/04.

Aplikovaná statistika 2. Veronika Svobodová

Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.

REGRESNÍ ANALÝZA Vysoká škola technická a ekonomická v Českých Budějovicích Institute of Technology And Business In České Budějovice.

Základy zpracování geologických dat R. Čopjaková.

Dvojrozměrné (vícerozměrné) statistické soubory Karel Mach.

Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)

Metody zkoumání závislosti numerických proměnných

Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0

INDUKTIVNÍ STATISTIKA

Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.

Opakování – přehled metod

Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.

Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:

ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných

Parciální korelace Regresní analýza

Neparametrické testy pro porovnání polohy

jednoduchá regrese kvadratický Y=b0+b1X+b2X 2

Lineární regrese.

7. Kontingenční tabulky a χ2 test

Transkript prezentace:

Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti náhodné veličiny na jiné veličině: regrese možnost předpovědi příklad: výška otce, výška jeho syna (v dospělosti) korelace: jak těsně spolu souvisejí ? populace - všechny dvojice (otec, syn) regrese: lze z výšky otce odhadnout výšku syna ? řada populací - synové otců vysokých 170 cm, 171 cm ...

Pearsonův korelační koeficient měří sílu lineární závislosti spojitých veličin vždy platí: -1 X,Y 1 v případě normálního rozdělení platí: nezávislost X, Y X,Y = 0 odhad pomocí nezávislost zamítáme, pokud | t |  t1-/2(n-2), kde

Příklady

Spearmanův korelační koeficient místo naměřených hodnot (xi, yi) jejich pořadí (Ri, Qi), což vede k hypotéza nezávislosti spojitých veličin X, Y se zamítá, je-li | rS |  r(n) (tabelováno pro n do 30) není třeba znát naměřené hodnoty, stačí jejich pořadí při pochybnosti o normalitě

Princip regresní závislosti zabýváme se dvojicí veličin: Y (vysvětlovaná, závisle proměnná) X (vysvětlující, nezávisle proměnná, regresor) hledáme vysvětlení chování Y při dané hodnotě X=x podmíněné rozdělení Y při daném X=x (změní se, když změníme x?) lineární regrese (předpoklady): populační průměr Y při dané hodnotě X=x je lineární funkcí x variabilita (rozptyl) podmíněného rozdělení Y nezávisí na X=x

Porodní hmotnost podle porodní délky

Porodní hmotnost a délka

Matematický popis regresní závislosti i=1,2,...,n  - neznámé parametry i - náhodná chyba N02) (normální rozdělení) 2 - neznámý parametr (rozptyl) x1, ..., xn - dané hodnoty proměnné X y1, ..., yn - naměřené (náhodné) hodnoty proměnné Y  - průměrná změna Y při jednotkové změně X  - průměrná hodnota Y při X=0

Odhad parametrů metoda nejmenších čtverců: zvolit odhady b0, b1 tak, byl minimální součet čtverců odchylek: toto minimum se nazývá reziduální součet čtverců (Se) odhad rozptylu :

Modelová představa

Příklad (úmrtnost na melanom) pozorování: jednotlivé státy USA MORT: úmrtnost na 10 000 000 obyvatel na maligní melanom kůže v letech 1950-1959 LAT: zeměpisná šířka státu LONG: zeměpisná délka státu POP: počet obyvatel (v milionech) OCEAN: zda na břehu oceánu lze nestejnou úmrtnost vysvětlit polohou jednotlivých států ?

Příklad (těsná závislost)

Příklad (slabá závislost)

Statistické vlastnosti odhadů H0 (Y nezávisí na x):  (tj. yi=+ei) zamítáme, když odhad b1 se dostatečně liší od 0 použijeme H0 zamítneme ve prospěch oboustranné alternativy H1, bude-li | T |  t1-/2(n - 2) ekvivalentní testu H0: x,y= 0 , tj. nezávislosti náhodných veličin X,Y

Příklad (závislost na zeměpisné délce) Se=52 439,0 s2 = 1 115,7 R2=0,022 přímka: odhad MORT = 183,5 + 0,3363 • LONG závislost není průkazná na hladině =0,05 změna o 10 stupňů na východ (zem. délka vzroste) (mortalitav průměru o 3 osoby na 10 000 000 větší)

Příklad (závislost na zeměpisné šířce) Se=17 173,01 s2 = 365,38 R2=0,680 přímka: odhad MORT = 389,2 - 5,978 • LAT závislost je průkazná na hladině =0,05 (i na menších) změna o 10 stupňů na sever (zeměpisná šířka vzroste) mortalitav průměru o 60 osob na 10 000 000 menší

Příklad (tabulka analýzy rozptylu, závislost úmrtnosti na zeměpisné šířce) celková variabilita = vysvětlená regresí + reziduální koeficient determinace:

Mnohonásobná lineární regrese lineární závislost na několika regresorech: yi =  xi1 + xi2 + ... + k xik + ei j - průměrná změna Y při jednotkové změně Xj a nezměněných hodnotách ostatních regresorů H0: j =0 znamená, že můžeme j-tý regresor ze závislosti vyloučit (nevypovídá o chování Y více, než co vypovídají ostatní regresory v modelu – test přidané informace) H0: 1 = 2 = ... = k = 0 znamená, že chování Y nezávisí na žádném z regresorů, testuje se pomocí tabulky analýzy rozptylu pro k=1 jsou obě hypotézy ekvivalentní

Příklad (závislost na délce i šířce) neprokázali jsme, že by znalost LONG vylepšila předpověď založenou na LAT (p=41,8 %) závislost na LAT byla: Se=16 927,7 s2 = 367,99 R2=0,684 Se=17 173,01 s2 = 365,38 R2=0,680

Příklad (opravdu na délce nezáleží?) Se=14 139,5 s2 = 314,21 R2=0,736 bez kvadratického členu bylo: Se=16 927,7 s2 = 367,99 R2=0,684

Příklad (pobřežní státy jsou jiné ?) Se=12 357,0 s2 = 268,63 R2=0,770 v kvadratickém modelu bylo: Se=14 139,5 s2 = 314,21 R2=0,736

Příklad ( analýza kovariance)

Umělé proměnné v regresi umělá proměnná: nabývá hodnot 0 - 1 jediný regresor - umělá proměnná dvouvýběrový t test několik umělých proměnných k vyjádření několika úrovní nominální veličiny analýza rozptylu jednoduchého třídění spojitý regresor, vůči kterému adjustujeme chování Y, ostatní regresory umělé proměnné analýza kovariance regresní diagnostika: metody (zejm. grafické) k ověření předpokladů regrese (tvar závislosti, stálý rozptyl, nezávislost pozorování, normální rozdělení)

Statistické modely závislosti nezávisle závisle proměnná proměnná (é) spojitá nominální regrese, korelace logistická regrese (pro 0-1) analýza rozptylu kontingenční tabulka