Základy zpracování geologických dat R. Čopjaková.

Slides:



Advertisements
Podobné prezentace
ZÁKLADY EKONOMETRIE 6. cvičení Autokorelace
Advertisements

Korelace a regrese Karel Zvára 1.
kvantitativních znaků
Použité statistické metody
Odhady parametrů základního souboru
Cvičení 6 – 25. října 2010 Heteroskedasticita
4EK211 Základy ekonometrie Autokorelace Cvičení /
Lineární regresní analýza Úvod od problému
ZÁKLADY EKONOMETRIE 2. cvičení KLRM
Úvod do regresní analýzy
Regresní analýza a korelační analýza
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Testování hypotéz (ordinální data)
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.
kvantitativních znaků
Základy ekonometrie Cvičení září 2010.
Obecné a centrální momenty
Základy ekonometrie Cvičení října 2010.
Základy ekonometrie Cvičení 3 4. října 2010.
Lineární regrese.
Simultánní rovnice Tomáš Cahlík
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Statistika Zkoumání závislostí
Charakteristiky variability
Korelace a elaborace aneb úvod do vztahů proměnných
Lineární regrese.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Závislost dvou kvantitativních proměnných
Biostatistika 6. přednáška
Lineární regrese kalibrační přímky
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Experimentální fyzika I. 2
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie psychodiagnostiky a psychometrie
2. Vybrané základní pojmy matematické statistiky
8. Kontingenční tabulky a χ2 test
Distribuční funkce diskrétní náhodná proměnná spojitá náhodná proměnná
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
Korelace.
Biostatistika 1. přednáška Aneta Hybšová
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Hustota pravděpodobnosti – případ dvou proměnných
Vzájemná závislost - KORELACE
Úvod do praktické fyziky Seminář pro I.ročník F J. Englich, ZS 2003/04.
Aplikovaná statistika 2. Veronika Svobodová
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
IV..
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
Dvojrozměrné (vícerozměrné) statistické soubory Karel Mach.
Metody zkoumání závislosti numerických proměnných
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.
Interpolace funkčních závislostí
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
Základy zpracování geologických dat Rozdělení pravděpodobnosti
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Parciální korelace Regresní analýza
jednoduchá regrese kvadratický Y=b0+b1X+b2X 2
Plánování přesnosti měření v IG Úvod – základní nástroje TCHAVP
Lineární regrese.
7. Kontingenční tabulky a χ2 test
Interpolace funkčních závislostí
Vzájemná závislost - KORELACE
Transkript prezentace:

Základy zpracování geologických dat R. Čopjaková

Základní charakteristiky náhodné veličiny  Koeficient šikmosti je charakteristika rozdělení náhodné veličiny, která popisuje jeho nesymetrii  Šikmost označuje stupeň asymetričnosti rozdělení veličiny kolem střední hodnoty  Nulová šikmost - hodnoty náhodné veličiny jsou rovnoměrně rozděleny vlevo a vpravo od střední hodnoty – symetrické rozdělení  Výběrový koeficient šikmosti je definován vzorcem  >0 pozitivně šikmé <0 negativně šikmé rozdělení má tzv. pravý ocas

Regrese a korelace – základní termíny Regrese versus korelace  Regrese popisuje vztah = závislost dvou a více kvantitativních proměnných formou funkční závislosti  Korelace měří těsnost (sílu) vztahu = závislosti mezi dvěma proměnnými  Liší se chápání proměnných u obou metod? U regrese lze rozlišit, která proměnná závisí na které, čili rozlišuje se tzv. nezávislá (x) a závislá proměnná (y); nezávislá proměnná x je na horizontální ose x, závislá proměnná y je na vertikální ose y. U korelace se nerozlišují proměnné na závislou a nezávislou  Regresní analýza – sestavení modelu, kterým lze formálně popsat vztahy (pokud existují)  Regresní model – vztah jedné proměnné označované jako závisle proměnná (vysvětlovaná) k dalším proměnným, které se označují jako nezávislé (vysvětlující)

Závislost dvou souborů dat  Funkční /deterministická závislost/: vzájemný vztah mezi proměnnými daný jednoznačně y=f(x)  Statistická závislost: vyjadřuje, že mezi proměnnými neexistuje jednoznačný vztah, tedy Y=f(X) + ε, kde ε jsou pozorované náhodné odchylky od modelu funkční závislost stochastická závislost ii

závislost neexistuje, nemá smysl prokládat regresní funkci ??? závislost lineární závislost exponenciální

Jednoduchý lineární regresní model:  nejjednodušší případ regrese: –„jednoduchá“ = pouze 1 nezávislá a 1 závislá proměnná –„lineární“ = závislost y na x vyjadřujeme přímkou  Některé předpoklady lineární regrese: 1. homogenní rozptyl: všechna Y mají stejnou rozptýlenost 2. linearita: střední hodnoty obou proměnných X a Y leží na regresní přímce [ x ; y ]

lineární závislost přímá lineární závislost nepřímá

Regresní analýza  napozorovaná (empirická) hodnota - hodnota proměnné, kterou jsme získali jako výsledek pozorování (měření, vážení atd.). značíme ji Y  odhadnutá (teoretická) hodnota - hodnota proměnné, kterou jsme získali jako výsledek modelování této proměnné. značíme ji Y  reziduum - rozdíl mezi napozorovanou a odhadnutou hodnotou. Reziduum značíme symbolem  a v příslušném bodě počítáme jako rozdíl empirické hodnoty a teoretické. Reziduum tedy můžeme chápat jako velikost chyby, které se v příslušném bodě při odhadu dopouštíme.  Jak nalézt funkci, která „nejlépe“proloží naše data?

Jak nalézt funkci, která „nejlépe“proloží naše data?  postup odhadu parametrů regresní funkce, který dává nejmenší hodnoty reziduí (tedy „nejmenší chybu“) a to najednou ve všech odhadovaných bodech.  Nestačí pouze rezidua sečíst - vlivem kladných a záporných znamének u jednotlivých hodnot by mohlo dojít k tomu, že součet reziduí bude nulový, přestože jednotlivá rezidua (tedy jednotlivé chyby) jsou veliké.  Z celé škály vyrovnávacích kritérií se jako nejpoužívanější (ne však vždy nejvhodnější) jeví tzv. metoda nejmenších čtverců = musí platit, aby (reziduální) součet čtverců odchylek skutečných od očekávaných hodnot byl minimální = min

Metoda nejmenších čtverců pro přímku  Hledáme minimum výrazu  Kde Y i = b o + b 1 X i +  i a  Po dosazení obdržíme  Hodnota veličiny S závisí na volitelných hodnotách b 0 a b 1 a je to tedy funkce dvou proměnných. Její extrém (minimum) se najde nulováním parciálních derivací podle těchto proměnných. Zderivujeme výraz parciálně podle b 0 a b 1 a dostaneme soustavu normálních rovnic  Z těchto rovnic můžeme po příslušných úpravách vyjádřit parametr b 1 – tedy směrnici regresní přímky  Z rovnice lineární funkce potom dopočteme parametr b 0, za předpokladu že x a y leží na regresní přímce = min Σ(x i -x)(y i -y) cov xy Σ (x i -x) 2 s x 2 b 1 = =

Reziduální rozptyl Reziduální rozptyl - velikost chyb ε je popsána rozptylem σ 2 (y-ŷ) nebo σ 2 e odchylek od regresní přímky

Kovariance  Nástroj kovariance můžete použít k testování závislosti dvou sad dat (u lineární závislosti dvou proměnných s přibližně normálním rozdělením).  Závislost znamená, že velké hodnoty v jedné sadě odpovídají velkým hodnotám ve druhé sadě (kladná kovariance), nebo že velké hodnoty v jedné sadě odpovídají malým hodnotám ve druhé sadě (záporná kovariance). Teoreticky se pohybuje od -∞ do + ∞  Pokud jsou hodnoty v obou množinách nezávislé => blízká nule.  nelze usuzovat na sílu vztahu, pouze na směr působení + přímé – nepřímé  Kovariance je ≤ součinu směrodatných odchylek proměnné X a Y –  (x i – x)(y i - y) i=1 n n S xy = cov(X,Y) = cov(Y,X) =

Pearsonův korelační koeficient  Tzv. standardizovaná kovariance  určení síly vztahu mezi proměnnou X a Y (s přibližně normálním rozdělením) bez nutnosti definovat závislou a nezávislou veličinu (pouze pro lineární závislost)  Hodnota korelačního koeficientu −1 značí zcela nepřímou (funkční) závislost, tedy čím více se zvětší hodnoty v první skupině znaků, tím více se zmenší hodnoty v druhé skupině znaků.  Hodnota korelačního koeficientu +1 značí zcela přímou (funkční) závislost.  Pokud je korelační koeficient roven 0, pak mezi znaky není žádná statisticky zjistitelná závislost,  Korelační koeficient může nabývat hodnot S xy = S x S y

r xy = 1r xy = 0,9 r xy = -0,9 r xy = O,35 Pearsonův korelační koeficient r xy = 0 r xy = O,6

Spearmanův koeficient pořadové korelace  Univerzální – nejen pro lineární závislost  Chci-li spočítat hodnotu Spearmanova koeficintu, převedu naměřená data pro soubor X i a Y i na pořadové hodnoty X ip a Y ip.  Spočtu rozdíly v pořadí jednotlivých párů d i = X ip – Y ip, které použiji při výpočtu tohoto koeficientu

= 1 - 6*37/16( ) = 0,95 Spearmanův koeficient pořadové korelace Reálná naměřená data s nelineární závislostí převedu na pořadové hodnoty a spočtu Spearmanův koeficient pořadové korelace SR=0,95 r xy =0,95 Spočtu-li pearsonův koeficient korelace pro pořadové hodnoty (lineární závislost), bude velice blízký hodnotě Spearmanova koeficientu pořadové korelace pro naměřené hodnoty proměnné X a Y r xy = = = 0,95 Sxy 20,05 SxSy 4,60*4,61