Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Korelace a regrese Karel Zvára. Korelace a regrese •síla (těsnost) závislosti dvou náhodných veličin: korelace –symetrický vztah obou náhodných veličin.

Podobné prezentace


Prezentace na téma: "Korelace a regrese Karel Zvára. Korelace a regrese •síla (těsnost) závislosti dvou náhodných veličin: korelace –symetrický vztah obou náhodných veličin."— Transkript prezentace:

1 Korelace a regrese Karel Zvára

2 Korelace a regrese •síla (těsnost) závislosti dvou náhodných veličin: korelace –symetrický vztah obou náhodných veličin –neslouží k předpovědi •způsob (tvar) závislosti náhodné veličiny na jiné (nenáhodné) veličině: regrese –možnost předpovědi •příklad: výška otce, výška jeho syna (v dospělosti) –korelace: jak těsně spolu souvisejí? populace - všechny dvojice (otec, syn) –regrese: lze z výšky otce odhadnout výšku syna? řada populací - synové otců vysokých 170 cm, 171 cm...

3 Pearsonův korelační koeficient •měří sílu lineární závislosti spojitých veličin •vždy platí: -1  X,Y  1 •v případě normálního rozdělení platí: nezávislost X, Y  X,Y = 0 •odhad pomocí •(za předpokladu normálního rozdělení x, y) nezávislost zamítáme, pokud | t |  t 1-  2 (n-2), kde

4 Příklady

5 Spearmanův korelační koeficient •místo naměřených hodnot (x i, y i ) jejich pořadí (R i, Q i ), což vede k •hypotéza nezávislosti spojitých veličin X, Y se zamítá, je-li –| r S |  r  (n) (tabelováno pro n do 30) (přibližné řešení, zvl. pro velké n) •není třeba znát naměřené hodnoty, stačí jejich pořadí •při pochybnosti o normalitě

6 Princip regresní závislosti •zabýváme se dvojicí veličin: –Y (vysvětlovaná, závisle proměnná) –X (vysvětlující, nezávisle proměnná, regresor) –hledáme vysvětlení chování Y při dané hodnotě X=x –podmíněné rozdělení Y při daném X=x (změní se, když změníme x?) •lineární regrese (předpoklady): –populační průměr Y při dané hodnotě X=x je lineární funkcí x –variabilita (rozptyl) podmíněného rozdělení Y nezávisí na X=x

7 Porodní hmotnost hochů podle porodní délky

8 Porodní hmotnost a délka

9 Matematický popis regresní závislosti  i=1,2,...,n     - neznámé parametry •  i - náhodná chyba N  2 ) (normální rozdělení)  2 - neznámý parametr (rozptyl) • x 1,..., x n - dané hodnoty proměnné X • y 1,..., y n - naměřené (náhodné) hodnoty proměnné Y   - průměrná změna Y při jednotkové změně X   - průměrná hodnota Y při X=0

10 Odhad parametrů •metoda nejmenších čtverců: zvolit odhady b 0, b 1 tak, byl minimální součet čtverců odchylek: •toto minimum se nazývá reziduální součet čtverců (S e ) •odhad rozptylu   : •b 1 odhad průměrné změny závisle proměnné Y při jednotkové změně nezávisle proměnné X

11 Modelová představa

12 Příklad (úmrtnost na melanom) •pozorování: jednotlivé státy USA •MORT: úmrtnost na mužů (bělochů) na maligní melanom kůže v letech •LAT: zeměpisná šířka státu •LONG: zeměpisná délka státu •OCEAN: zda na břehu oceánu (OCEAN=1, má-li oceánské pobřeží, OCEAN=0 jinak ) •lze nestejnou úmrtnost vysvětlit polohou jednotlivých států?

13 Příklad (těsná závislost)

14 Příklad (slabá závislost)

15 Statistické vlastnosti odhadů •H 0 : (Y nezávisí na x):    (tj. y i =   +  i ) •zamítáme, když odhad b 1 se dostatečně liší od 0 •použijeme •H 0 zamítneme ve prospěch oboustranné alternativy H 1, bude-li | T |  t 1-  (n - 2) •ekvivalentní testu H 0 :  x,y = 0, tj. nezávislosti náhodných veličin X,Y

16 Příklad (závislost na zeměpisné délce) •přímka: odhad MORT = 183,5 + 0,3363 • LONG •závislost není průkazná na hladině  =0,05 •R 2 je čtverec korel. koef. MORT a LONG (0,15 2 =0,0225) S e =52 439,0s 2 = 1 115,7R 2 =0,022

17 Příklad (závislost na zeměpisné šířce) S e =17 173,01s 2 = 365,38R 2 =0,680 •přímka: odhad MORT = 389,2 - 5,978 • LAT •závislost je průkazná na hladině  =0,05 (i na menších) •změna o 10 stupňů na sever (zeměpisná šířka vzroste) mortalita v průměru o 60 osob na menší

18 Příklad (tabulka analýzy rozptylu, závislost úmrtnosti na zeměpisné šířce) •celková variabilita = vysvětlená regresí + reziduální •koeficient determinace obecně (var. vysvětlená/celková):

19 Mnohonásobná lineární regrese •lineární závislost na několika regresorech: y i =     x i1 +   x i  k x ik + e i •  j - průměrná změna Y při jednotkové změně X j a nezměněných hodnotách ostatních regresorů •H 0 :  j =0 znamená, že můžeme j-tý regresor ze závislosti vyloučit (nevypovídá o chování Y více, než co vypovídají ostatní regresory v modelu – test přidané informace) •H 0 :  1 =  2 =... =  k = 0 znamená, že chování Y nezávisí na žádném z regresorů, testuje se pomocí tabulky analýzy rozptylu •pro k=1 jsou obě hypotézy ekvivalentní

20 Příklad (závislost na délce i šířce) •neprokázali jsme, že by znalost LONG vylepšila předpověď založenou na LAT (p=41,8 %) •závislost na LAT byla: S e =16 927,7s 2 = 367,99R 2 =0,684 S e =17 173,01s 2 = 365,38R 2 =0,680

21 Příklad (opravdu na délce nezáleží?) S e =14 139,5s 2 = 314,21R 2 =0,736 bez kvadratického členu bylo: S e =16 927,7s 2 = 367,99R 2 =0,684

22 Příklad (pobřežní státy jsou jiné ?) S e =12 357,0s 2 = 268,63R 2 =0,770 v kvadratickém modelu bylo: S e =14 139,5s 2 = 314,21R 2 =0,736

23 Příklad (analýza kovariance)

24 Umělé proměnné v regresi •umělá proměnná: nabývá hodnot •jediný regresor - umělá proměnná  dvouvýběrový t-test •několik umělých proměnných k vyjádření několika úrovní nominálního znaku  analýza rozptylu jednoduchého třídění •spojitý regresor, vůči kterému adjustujeme chování Y, ostatní regresory umělé proměnné  analýza kovariance •regresní diagnostika: metody (zejm. grafické) k ověření předpokladů regrese (tvar závislosti, stálý rozptyl, nezávislost pozorování, normální rozdělení)

25 Statistické modely závislosti nezávisle závisleproměnná proměnná (é) spojitánominální spojitáregrese, korelace logistická regrese (pro 0-1) nominálníanalýza rozptylukontingenční tabulka


Stáhnout ppt "Korelace a regrese Karel Zvára. Korelace a regrese •síla (těsnost) závislosti dvou náhodných veličin: korelace –symetrický vztah obou náhodných veličin."

Podobné prezentace


Reklamy Google