Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.

Podobné prezentace


Prezentace na téma: "Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti."— Transkript prezentace:

1 Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti náhodné veličiny na jiné veličině: regrese možnost předpovědi příklad: výška otce, výška jeho syna (v dospělosti) korelace: jak těsně spolu souvisejí ? populace - všechny dvojice (otec, syn) regrese: lze z výšky otce odhadnout výšku syna ? řada populací - synové otců vysokých 170 cm, 171 cm ...

2 Pearsonův korelační koeficient
měří sílu lineární závislosti spojitých veličin vždy platí: X,Y 1 v případě normálního rozdělení platí: nezávislost X, Y X,Y = 0 odhad pomocí nezávislost zamítáme, pokud | t |  t1-/2(n-2), kde

3 Příklady

4 Spearmanův korelační koeficient
místo naměřených hodnot (xi, yi) jejich pořadí (Ri, Qi), což vede k hypotéza nezávislosti spojitých veličin X, Y se zamítá, je-li | rS |  r(n) (tabelováno pro n do 30) není třeba znát naměřené hodnoty, stačí jejich pořadí při pochybnosti o normalitě

5 Princip regresní závislosti
zabýváme se dvojicí veličin: Y (vysvětlovaná, závisle proměnná) X (vysvětlující, nezávisle proměnná, regresor) hledáme vysvětlení chování Y při dané hodnotě X=x podmíněné rozdělení Y při daném X=x (změní se, když změníme x?) lineární regrese (předpoklady): populační průměr Y při dané hodnotě X=x je lineární funkcí x variabilita (rozptyl) podmíněného rozdělení Y nezávisí na X=x

6 Porodní hmotnost podle porodní délky

7 Porodní hmotnost a délka

8 Matematický popis regresní závislosti
i=1,2,...,n  - neznámé parametry i - náhodná chyba N02) (normální rozdělení) 2 - neznámý parametr (rozptyl) x1, ..., xn - dané hodnoty proměnné X y1, ..., yn - naměřené (náhodné) hodnoty proměnné Y  - průměrná změna Y při jednotkové změně X  - průměrná hodnota Y při X=0

9 Odhad parametrů metoda nejmenších čtverců: zvolit odhady b0, b1 tak, byl minimální součet čtverců odchylek: toto minimum se nazývá reziduální součet čtverců (Se) odhad rozptylu :

10 Modelová představa

11 Příklad (úmrtnost na melanom)
pozorování: jednotlivé státy USA MORT: úmrtnost na obyvatel na maligní melanom kůže v letech LAT: zeměpisná šířka státu LONG: zeměpisná délka státu POP: počet obyvatel (v milionech) OCEAN: zda na břehu oceánu lze nestejnou úmrtnost vysvětlit polohou jednotlivých států ?

12 Příklad (těsná závislost)

13 Příklad (slabá závislost)

14 Statistické vlastnosti odhadů
H0 (Y nezávisí na x):  (tj. yi=+ei) zamítáme, když odhad b1 se dostatečně liší od 0 použijeme H0 zamítneme ve prospěch oboustranné alternativy H1, bude-li | T |  t1-/2(n - 2) ekvivalentní testu H0: x,y= 0 , tj. nezávislosti náhodných veličin X,Y

15 Příklad (závislost na zeměpisné délce)
Se=52 439,0 s2 = 1 115,7 R2=0,022 přímka: odhad MORT = 183,5 + 0,3363 • LONG závislost není průkazná na hladině =0,05 změna o 10 stupňů na východ (zem. délka vzroste) (mortalitav průměru o 3 osoby na větší)

16 Příklad (závislost na zeměpisné šířce)
Se=17 173,01 s2 = 365,38 R2=0,680 přímka: odhad MORT = 389,2 - 5,978 • LAT závislost je průkazná na hladině =0,05 (i na menších) změna o 10 stupňů na sever (zeměpisná šířka vzroste) mortalitav průměru o 60 osob na menší

17 Příklad (tabulka analýzy rozptylu, závislost úmrtnosti na zeměpisné šířce)
celková variabilita = vysvětlená regresí + reziduální koeficient determinace:

18 Mnohonásobná lineární regrese
lineární závislost na několika regresorech: yi =  xi1 + xi k xik + ei j - průměrná změna Y při jednotkové změně Xj a nezměněných hodnotách ostatních regresorů H0: j =0 znamená, že můžeme j-tý regresor ze závislosti vyloučit (nevypovídá o chování Y více, než co vypovídají ostatní regresory v modelu – test přidané informace) H0: 1 = 2 = ... = k = 0 znamená, že chování Y nezávisí na žádném z regresorů, testuje se pomocí tabulky analýzy rozptylu pro k=1 jsou obě hypotézy ekvivalentní

19 Příklad (závislost na délce i šířce)
neprokázali jsme, že by znalost LONG vylepšila předpověď založenou na LAT (p=41,8 %) závislost na LAT byla: Se=16 927,7 s2 = 367,99 R2=0,684 Se=17 173,01 s2 = 365,38 R2=0,680

20 Příklad (opravdu na délce nezáleží?)
Se=14 139,5 s2 = 314,21 R2=0,736 bez kvadratického členu bylo: Se=16 927,7 s2 = 367,99 R2=0,684

21 Příklad (pobřežní státy jsou jiné ?)
Se=12 357,0 s2 = 268,63 R2=0,770 v kvadratickém modelu bylo: Se=14 139,5 s2 = 314,21 R2=0,736

22 Příklad ( analýza kovariance)

23 Umělé proměnné v regresi
umělá proměnná: nabývá hodnot 0 - 1 jediný regresor - umělá proměnná dvouvýběrový t test několik umělých proměnných k vyjádření několika úrovní nominální veličiny analýza rozptylu jednoduchého třídění spojitý regresor, vůči kterému adjustujeme chování Y, ostatní regresory umělé proměnné analýza kovariance regresní diagnostika: metody (zejm. grafické) k ověření předpokladů regrese (tvar závislosti, stálý rozptyl, nezávislost pozorování, normální rozdělení)

24 Statistické modely závislosti
nezávisle závisle proměnná proměnná (é) spojitá nominální regrese, korelace logistická regrese (pro 0-1) analýza rozptylu kontingenční tabulka


Stáhnout ppt "Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti."

Podobné prezentace


Reklamy Google