Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace –symetrický vztah obou veličin –neslouží k předpovědi způsob (tvar) závislosti.

Podobné prezentace


Prezentace na téma: "Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace –symetrický vztah obou veličin –neslouží k předpovědi způsob (tvar) závislosti."— Transkript prezentace:

1 Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace –symetrický vztah obou veličin –neslouží k předpovědi způsob (tvar) závislosti náhodné veličiny na jiné veličině: regrese –možnost předpovědi příklad: výška otce, výška jeho syna (v dospělosti) –korelace: jak těsně spolu souvisejí ? populace - všechny dvojice (otec, syn) –regrese: lze z výšky otce odhadnout výšku syna ? řada populací - synové otců vysokých 170 cm, 171 cm...

2 Pearsonův korelační koeficient měří sílu lineární závislosti spojitých veličin vždy platí: -1  X,Y  1 v případě normálního rozdělení platí: nezávislost X, Y  X,Y = 0 odhad pomocí nezávislost zamítáme, pokud | t |  t 1-  (n-2), kde

3 Příklady

4 Spearmanův korelační koeficient místo naměřených hodnot (x i, y i ) jejich pořadí (R i, Q i ), což vede k hypotéza nezávislosti spojitých veličin X, Y se zamítá, je-li –| r S |  r  (n) (tabelováno pro n do 30) není třeba znát naměřené hodnoty, stačí jejich pořadí při pochybnosti o normalitě

5 Princip regresní závislosti zabýváme se dvojicí veličin: –Y (vysvětlovaná, závisle proměnná) –X (vysvětlující, nezávisle proměnná, regresor) –hledáme vysvětlení chování Y při dané hodnotě X=x –podmíněné rozdělení Y při daném X=x (změní se, když změníme x?) lineární regrese (předpoklady): –populační průměr Y při dané hodnotě X=x je lineární funkcí x –variabilita (rozptyl) podmíněného rozdělení Y nezávisí na X=x

6 Porodní hmotnost podle porodní délky

7 Porodní hmotnost a délka

8 Matematický popis regresní závislosti  i=1,2,...,n     - neznámé parametry  i - náhodná chyba N  2 ) (normální rozdělení)  2 - neznámý parametr (rozptyl) x 1,..., x n - dané hodnoty proměnné X y 1,..., y n - naměřené (náhodné) hodnoty proměnné Y   - průměrná změna Y při jednotkové změně X   - průměrná hodnota Y při X=0

9 Odhad parametrů metoda nejmenších čtverců: zvolit odhady b 0, b 1 tak, byl minimální součet čtverců odchylek: toto minimum se nazývá reziduální součet čtverců (S e ) odhad rozptylu   :

10 Modelová představa

11 Příklad (úmrtnost na melanom) pozorování: jednotlivé státy USA MORT: úmrtnost na obyvatel na maligní melanom kůže v letech LAT: zeměpisná šířka státu LONG: zeměpisná délka státu POP: počet obyvatel (v milionech) OCEAN: zda na břehu oceánu lze nestejnou úmrtnost vysvětlit polohou jednotlivých států ?

12 Příklad (těsná závislost)

13 Příklad (slabá závislost)

14 Statistické vlastnosti odhadů H 0 ( Y nezávisí na x):    (tj. y i =   + e i ) zamítáme, když odhad b 1 se dostatečně liší od 0 použijeme H 0 zamítneme ve prospěch oboustranné alternativy H 1, bude-li | T |  t 1-  (n - 2) ekvivalentní testu H 0 :  x,y = 0, tj. nezávislosti náhodných veličin X,Y

15 Příklad (závislost na zeměpisné délce) přímka: odhad MORT = 183,5 + 0,3363 LONG závislost není průkazná na hladině  =0,05 změna o 10 stupňů na východ (zem. délka vzroste) (  mortalita  v průměru o 3 osoby na větší) S e =52 439,0s 2 = 1 115,7R 2 =0,022

16 Příklad (závislost na zeměpisné šířce) S e =17 173,01s 2 = 365,38R 2 =0,680 přímka: odhad MORT = 389,2 - 5,978 LAT závislost je průkazná na hladině  =0,05 (i na menších) změna o 10 stupňů na sever (zeměpisná šířka vzroste)  mortalita  v průměru o 60 osob na menší

17 Příklad (tabulka analýzy rozptylu, závislost úmrtnosti na zeměpisné šířce) celková variabilita = vysvětlená regresí + reziduální koeficient determinace:

18 Mnohonásobná lineární regrese lineární závislost na několika regresorech: y i =     x i1 +   x i  k x ik + e i  j - průměrná změna Y při jednotkové změně X j a nezměněných hodnotách ostatních regresorů H 0 :  j =0 znamená, že můžeme j-tý regresor ze závislosti vyloučit (nevypovídá o chování Y více, než co vypovídají ostatní regresory v modelu – test přidané informace) H 0 :  1 =  2 =... =  k = 0 znamená, že chování Y nezávisí na žádném z regresorů, testuje se pomocí tabulky analýzy rozptylu pro k=1 jsou obě hypotézy ekvivalentní

19 Příklad (závislost na délce i šířce) neprokázali jsme, že by znalost LONG vylepšila předpověď založenou na LAT (p=41,8 %) závislost na LAT byla: S e =16 927,7s 2 = 367,99R 2 =0,684 S e =17 173,01s 2 = 365,38R 2 =0,680

20 Příklad (opravdu na délce nezáleží?) S e =14 139,5s 2 = 314,21R 2 =0,736 bez kvadratického členu bylo: S e =16 927,7s 2 = 367,99R 2 =0,684

21 Příklad (pobřežní státy jsou jiné ?) S e =12 357,0s 2 = 268,63R 2 =0,770 v kvadratickém modelu bylo: S e =14 139,5s 2 = 314,21R 2 =0,736

22 Příklad ( analýza kovariance)

23 Umělé proměnné v regresi umělá proměnná: nabývá hodnot jediný regresor - umělá proměnná  dvouvýběrový t test několik umělých proměnných k vyjádření několika úrovní nominální veličiny  analýza rozptylu jednoduchého třídění spojitý regresor, vůči kterému adjustujeme chování Y, ostatní regresory umělé proměnné  analýza kovariance regresní diagnostika: metody (zejm. grafické) k ověření předpokladů regrese (tvar závislosti, stálý rozptyl, nezávislost pozorování, normální rozdělení)

24 Statistické modely závislosti nezávisle závisleproměnná proměnná (é) spojitánominální spojitáregrese, korelace logistická regrese (pro 0-1) nominálníanalýza rozptylu kontingenční tabulka


Stáhnout ppt "Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace –symetrický vztah obou veličin –neslouží k předpovědi způsob (tvar) závislosti."

Podobné prezentace


Reklamy Google