Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec.

Podobné prezentace


Prezentace na téma: "1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec."— Transkript prezentace:

1 1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec.

2 2 Témata přednášky – časová osnova  Způsob uvažování ve statistice: práce s náhodou  Pojmy - odhady parametrů, testování hypotéz, modelování  -----------  Korelace a regrese, lineární modely (LM), analýza rozptylu (ANOVA, MANOVA)  Analýza hlavních komponent (PCA) – příklady z geologie  Shluková analýza (CLU) a diskriminační analýza (DA)– příklad z geologie  ------------  Krigování – základní prostorové odhady – geologický příklad  Kategoriální data: logistická regrese, kontingenční tabulky.  ------------  Příprava dat pro statistické zpracování  Symbolika grafických výstupů ve statistice

3 3 Čím se zabývá matematická statistika  Testování hypotéz o datech: datové soubory jsou podrobeny statistickému testu, který posoudí jejich shodnost či odlišnost nebo jsou data klasifikována do skupin podle jejich podobnosti  Odhady parametrů: daná data jsou popsána odvozeným parametrem – parametr je odhadnut i s intervalem spolehlivosti kolem něj  Modelování: složené použití shora uvedeného  Návrh experimetu – měření: schéma uspořádání experimetnu tak, aby mohl být co nejlépe analyzován shora uvedeným. Otázka, jakého původu data jsou je klíčová pro jejich analýzu

4 4 Způsob uvažování ve statistice

5 5 Experiment 100 hodů mincí - zcela náhodný experiment Případpočet HKolik případů v celé množině 0000000000...00001 případ 0000H00000…000 1100 případů … 0HHH00HHH00.HOH499.891308e+28 0H0H0HHH000…H0H501.008913e+29 případů ….519.891308e+28 HHHH0HHHH….HHHH99100 případů HHHHHHHHHH..HHHH1001 případ Celkem: 2^100, t.j. 1.267e+30 případů

6 6 Způsob uvažování ve statistice

7 7

8 8

9 9

10 10 Způsob uvažování ve statistice

11 11 Způsob uvažování ve statistice  Centrální limitní věta: součet náhodných veličin (s konečným rozptylem, nezávislých, se společnou střední hodnotou,..) konverguje k normálnímu rozdělení (Gausova křivka)  Zákon velkých čísel: aritmetický průměropakovaných realizací náhodné veličiny (nezávislých experimentů,..) konverguje ke střední hodnotě  Obecně: souhrn (kombinace) náhod vede k deterministickému výsledku.  Klasická statistika aproximuje náhodu pomocí limitních případů, ale vyžaduje dodržení řady podmínek, aby její závěry byly správné

12 12 Odhady parametrů, testování hypotéz  100 hodů=1 experiment=1 měření  Odhad parametru počet Orlů  Provedu několik experimentů (třeba n=300) a získám měření. Odhaduji teoretickou hodnotu, o které jsem teoreticky přesvědčen, že je 50. (nazývá se střední hodnota)  Pro odhad střední hodnoty použiji průměr získaných měření.  Interval spolehlivosti  Jak je můj odhad přesný?  Co když je moje mince nesymetrická a Orel padá více – jak to ověřím?

13 13 Odhady parametrů, testování hypotéz T-test: - podmínky:  veličiny pochází z normálního rozdělení pravděpodobnosti  Jsou vzájemně nezávislé Nulová hypotéza: Mince je ideální, t.j. sh=50. Test sh>50 sh<>50, sh<50 (jednostranné a oboustranné testy) Například pro n=300, při experimentálně získaném průměru 50.813 se již zamítá nulová hypotéza pro symetrickou minci na hladině p-value = 0.04119 Metoda je velmi citlivá, ale musí být splněny určité podmínky (často je lze v praxi obtížně zaručit)

14 14 Odhady parametrů, testování hypotéz  Náhrada t-testu neparametrickými testy:  Neparametrické testy se osvobozují od závislosti na rozdělení pravděpodobnosti tím, že pracují s pořadovými statistikami – laicky řečeno, nezáleží na konkrétních hodnotách naměřených dat, ale jen na jejich vzájemném pořadí / hodnocení závodníků bez stopek a měření, jen jejich porovnáním. Mezi různými skupinami se hodnotí jak jsou pořadově promíchány a abstrahuje se od konkrétních hodnot. To zjednoduší vstupní podmínky, učiní testy hodně odolné vůči exptrémním pozorováním, na úkor citlivosti testu  V éře před počítači bylo obtížné tabelovat nepar. testy  Kolmogorov-Smirnov test: testuje celou distribuční fci  Znaménkový Mann-Whitney test: testuje polohu středu

15 15 Závislost a nezávislost hodnot - kovariance  Ve statistice se závislost popisuje pomocí kovariance (je to míra lineární závislosti) cov(X,Y)=EXY-EXEY  Jedná se o (velmi) formální popis, abstrahuje od “funkční závislosti“  normovaná kovarinace se nazývá korelace. Nabývá hodnot (– 1,1), nezávislé jevy mají nulovou korelaci  Naopak: nulová korelace ještě nezaručuje nějaký případ závislosti (např. y=x^2 na symetrick0m intervalu kolem 0)  Máme-li náhodný vektor (sadu dat s několika parametry), lze sestavit kovarianční (korelační) matici závislostí jejích složek – formálně odpovídá vícerozměrnému rozptylu – viz např. PCA  pojem korelace a autokorelace, prostorové korelace

16 16 Lineární modely, korelace, regrese, analýza rozptylu  y=Xb +eps (eps náhodný vektor, s var. maticí V=I)  Zkoumaná veličina y se vysvětluje jakou souhrn několika faktorů (zapsaných do matice X a sečtených s vahami b) +chyba  Parametry se odhadnou (v Eukleidovském prostoru) metodou nejmenších čtverů (optimalizace, metrika)  Testování modelů a podmodelů zahrnuje širokou škálu případů :  Regresní modely (i třeba polynomická závislost je lineární v parametrech,  Analýza rozptylu: snaha vysvětlit chování veličiny podle příslušnostike kategoriím.  Kombinované modely,  Pro netriviální varianční matici V jde pak o širokou škálu úloh (např. geoprostorové odhady)

17 17 Regrese – příklad data Meuse (Máza) Vzorová data – těžké kovy na břehu řeky Mázy coordinates cadmium copper lead zinc elev dist om ffreq soil lime landuse dist.m 1 (181072, 333611) 11.7 85 299 1022 7.909 0.00135803 13.6 1 1 1 Ah 50 2 (181025, 333558) 8.6 81 277 1141 6.983 0.01222430 14.0 1 1 1 Ah 30 3 (181165, 333537) 6.5 68 199 640 7.800 0.10302900 13.0 1 1 1 Ah 150 4 (181298, 333484) 2.6 81 116 257 7.655 0.19009400 8.0 1 2 0 Ga 270 5 (181307, 333330) 2.8 48 117 269 7.480 0.27709000 8.7 1 2 0 Ah 380 6 (181390, 333260) 3.0 61 137 281 7.791 0.36406700 7.8 1 2 0 Ga 470 7 (181165, 333370) 3.2 31 132 346 8.217 0.19009400 9.2 1 2 0 Ah 240 8 (181027, 333363) 2.8 29 150 406 8.490 0.09215160 9.5 1 1 0 Ab 120 9 (181060, 333231) 2.4 37 133 347 8.668 0.18461400 10.6 1 1 0 Ab 240 10 (181232, 333168) 1.6 24 80 183 9.049 0.30970200 6.3 1 2 0 W 420 11 (181191, 333115) 1.4 25 86 189 9.015 0.31511600 6.4 1 2 0 Fh 400 12 (181032, 333031) 1.8 25 97 251 9.073 0.22812300 9.0 1 1 0 Ag 300 13 (180874, 333339) 11.2 93 285 1096 7.320 0.00000000 15.4 1 1 1 W 20 14 (180969, 333252) 2.5 31 183 504 8.815 0.11393200 8.4 1 1 0 Ah 130 15 (181011, 333161) 2.0 27 130 326 8.937 0.16833600 9.1 1 1 0 Ah 220 16 (180830, 333246) 9.5 86 240 1032 7.702 0.00000000 16.2 1 1 1 W 10 17 (180763, 333104) 7.0 74 133 606 7.160 0.01222430 16.0 1 1 1 W 10 18 (180694, 332972) 7.1 69 148 711 7.100 0.01222430 16.0 1 1 1 W 10 19 (180625, 332847) 8.7 69 207 735 7.020 0.00000000 13.7 1 1 1 W 10 20 (180555, 332707) 12.9 95 284 1052 6.860 0.00000000 14.8 1 1 1 10 21 (180642, 332708) 5.5 53 194 673 8.908 0.07034680 10.2 1 1 1 Am 80 22 (180704, 332717) 2.8 35 123 402 8.990 0.09751360 7.2 1 1 1 Am 140 23 (180704, 332664) 2.9 35 110 343 8.830 0.11393200 7.2 1 1 1 Ag 160 24 (181153, 332925) 1.7 24 85 218 9.020 0.34232100 7.0 1 2 0 Ah 440 25 (181147, 332823) 1.4 26 75 200 8.976 0.38580400 6.9 1 2 0 W 490 26 (181167, 332778) 1.5 22 76 194 8.973 0.42928900 6.3 1 2 0 W 530 27 (181008, 332777) 1.3 27 73 207 8.507 0.31511600 5.6 1 2 0 Ab 400

18 18 Regrese – příklad data Meuse (Máza)

19 19 Lineární modely: jednoduchá regrese (trend)

20 20 Lineární modely - shrnutí je důležitá následná analýza modelu nad daty analýza reziduí, QQplot, analýza odlehlých a vlivných (leverage) pozorování lze testovat významnost trendů model je „lineární“ jen ve odhadovaných svých parametrech – může pracovat i „nelineárními“ vztahy

21 21 Analýza hlavních komponent (PCA – Principal component analysis)  Vycházíme ze souboru, ve kterém je každý vzorek popsán mnoha, obecně korelovanými parametry  Smyslem analýzy hlavních komponent je snížit počet parametrů, které popisují zkoumaný soubor (jeho variabilitu).  To se provede vhodnou lineární transformací a to tak, aby první parametr popisoval co možná nejvíce variability, další pak co největší zbytek, atd. Tyto parametry jsou navzájem nekorelované.  Pokud jsme schopni variabilitu souboru vysvětlit z větší míry pomocí dvou komponent, můžeme si vzorky základního souboru graficky znázornit v rovině  podobné vzorky leží poblíž sebe, nepodobné jsou daleko od sebe.  Směry pohybu po rovině mají význam trendu odlišnosti

22 22 Analýza hlavních komponent Data: H. Gilíková

23 23 Analýza hlavních komponent Data: J. Franců

24 24 Shluková analýza (Cluster Analysis CLU, CA)  Vstup - analogie k PCA – mnohorozměrná data, zjišťování jejich podobností: jde dále: zařadí pozorování do shluků  Nazývaná též numerická taxonomie, úzce souvisí s diskriminační analýzou (archeologie, medicína,..)  je několik algoritmů, jak data shlukovat : hierarchické (aglomerace, nejbližší soused, Wardova metoda, těžiště) a nehierarchické způsoby shlukování (K-means, PAM – zárodečné body)  problémy: odlehlá pozorování, sjednocení měřítkové úrovně jednotlivých parametrů  Výstup: dendrogam – rozptylový diagram – úzce souvisí s PCA

25 25 Shluková analýza

26 26 ------------------

27 27 Diskriminační analýza  Používá se např. v antropologii pro klasifikaci nových nálezů, ale její užití je obecnější  Modelová situace: máme známé klasifikované předměty, které umíme popsat pomocí řady parametrů – v rámci skupiny je přirozená variabilita  Nyní najdeme další předmět a ptáme se, zda patří do některé z existujících skupin a do které z nich, s jakou pravděpodobností,.. atd

28 28 Diskriminační analýza - shluková analýza  Výchozí soubor :  502 horninových vzorků klasifikovaných do 7 skupin (A,A2,B.C,C2,D,E)  298 sedimentárních vzorků ze 6 lokalit.  U obou skupin souborů známy veličiny."Almandine" "Andradite" "Grossular" "Pyrope" "Spessartine" "Uvarovite"  Provedené analýzy – metodika:  Byla použita linerární diskriminační analýza,. Nejprve byl na základě souboru 502 horninových vzorků vypočten model diskriminační analýzy a diskriminátory, následně byly 298 sedimentární vzorky z oblastí 1-6 začleněny ke skupinám A-E pomocí predikce na základě určených diskriminátorů. Ke klasifikaci byly použity všechny dostupné veličiny s vyjímkou "Uvarovite". Vzhledem k hodnám "Uvarovite" jeho začlenění vedlo na úlohu se singulární kovarianční maticí.  Výsledné začlenění sedimentárních vzorků ke skupinám horninových vzorků popisuje následující tabulka, obsahující počty začleněných sedimentárních vzorků v každé skupině

29 29 Diskriminační analýza a shluková analýza

30 30 Diskriminační analýza

31 31 Diskriminační analýza

32 32 Diskriminační analýza d<<-read.table( file='sed.csv', header=TRUE, sep=";", na.strings=c("",'*','-')); dv<<-read.table( file='sed_vz.csv', header=TRUE, sep=";", na.strings=c("",'*','-')); library(cluster) x<-cbind(d$Almandine,d$Andradite,d$Grossular,d$Pyrope,d$Spessartine,d$Uvarovite) xv<-cbind(dv$Almandine,dv$Andradite,dv$Grossular,dv$Pyrope,dv$Spessartine,dv$Uvarovite) pamx <- pam(x, 5) summary(pamx) plot(pamx) cbind(d$skupina,pamx$clustering) pamxv <- pam(xv, 6) summary(pamxv) plot(pamxv) cbind(dv$Group,pamxv$clustering) par(ask=TRUE,mfcol=c(2,3)) #"Andradite" "Grossular" "Pyrope" "Spessartine" "Uvarovite" plot(d$Almandine~d$skupina,col="grey") plot(d$Grossular~d$skupina,col="grey") plot(d$Pyrope~d$skupina,col="grey") plot(d$Spessartine~d$skupina,col="grey") plot(d$Uvarovite~d$skupina,col="grey") tapply(dv$Almandine,dv$Group,mean) dv$Group<-as.factor(dv$Group); plot(dv$Almandine~dv$Group,col="grey") plot(dv$Grossular~dv$Group,col="grey") plot(dv$Pyrope~dv$Group,col="grey") plot(dv$Spessartine~dv$Group,col="grey") plot(dv$Uvarovite~dv$Group,col="grey")

33 33 Prostorově zaměřená analýza - krigování – základní prostorové odhady  jde o interpolaci hodnot v celé oblasti na základě několika existujících měření  z hlediska statistiky je důležitý výpočet odhadu přesnosti  souvisí s lineráními modely (regresí)  Z(s) = µ + eps(s)  µ je konstantní stacionární funkce a eps(s) je prostorově korelovaná část rozptylu zislá na s (element zkoumaného pole).  v(h)=1/2 E (z(s i )-z(s i +h)) 2

34 34 Variogram - ilustrace

35 35 Krigování – základní prostorové odhady  modelování veličiny s prostorovou vazbou  veličina je změřena pouze v určitých bodech (vzorek, vrt, nález)  odhaduje se hodnota veličiny v celé ploše (prostoru) mezi naměřenými hodnotami  1. krok: výpočet odhadu variogramu (t.j. závislost diferencí hodnot na vzdálenosti od sebe )  2. krok: interpolace hodnot (zpravidla se počítá v mřížce s určitým krokem)

36 36 Krigování – základní prostorové odhady par(ask=TRUE); library(sp) library(lattice) # required for trellis.par.set(): trellis.par.set(sp.theme()) # sets color ramp to bpy.colors() data(meuse) coordinates(meuse)=~x+y ## coloured points plot with legend in plotting area and scales: print(spplot(meuse, "zinc", do.log = TRUE, key.space=list(x=0.2,y=0.9,corner=c(0,1)), scales=list(draw=T)))

37 37 Krigování – základní prostorové odhady library(sp) library(lattice) # required for trellis.par.set(): trellis.par.set(sp.theme()) # sets color ramp to bpy.colors() data(meuse) coordinates(meuse)=~x+y data(meuse.riv) meuse.sr = SpatialPolygons(list(Polygons(list(Polygon(meuse.riv))," meuse.riv"))) ## same plot; north arrow now inside panel, custom panel function instead of sp.layout print(spplot(meuse, "zinc", panel = function(x, y,...) { sp.polygons(meuse.sr, fill = "lightblue") SpatialPolygonsRescale(layout.scale.bar(), offset = c(179900,329600), scale = 500, fill=c("transparent","black")) sp.text(c(179900,329700), "0") sp.text(c(180400,329700), "500 m") SpatialPolygonsRescale(layout.north.arrow(), offset = c(178750,332500), scale = 400) panel.pointsplot(x, y,...) }, do.log = TRUE, cuts = 7, key.space = list(x = 0.1, y = 0.93, corner = c(0,1)), main = "Top soil zinc concentration (ppm)"))

38 38 Krigování – základní prostorové odhady library(sp) library(lattice) # required for trellis.par.set(): trellis.par.set(sp.theme()) # sets color ramp to bpy.colors() data(meuse) coordinates(meuse)=~x+y data(meuse.riv) meuse.sr = SpatialPolygons(list(Polygons(list(Polygon(meuse.riv)),"meuse. riv"))) rv = list("sp.polygons", meuse.sr, fill = "lightblue") ## multi-panel plot, scales + north arrow only in last plot: ## using the "which" argument in a layout component ## (if which=4 was set as list component of sp.layout, the river ## would as well be drawn only in that (last) panel) scale = list("SpatialPolygonsRescale", layout.scale.bar(), offset = c(180500,329800), scale = 500, fill=c("transparent","black"), which = 4) text1 = list("sp.text", c(180500,329900), "0", cex =.5, which = 4) text2 = list("sp.text", c(181000,329900), "500 m", cex =.5, which = 4) arrow = list("SpatialPolygonsRescale", layout.north.arrow(), offset = c(181300,329800), scale = 400, which = 4) cuts = c(.2,.5,1,2,5,10,20,50,100,200,500,1000,2000) print(spplot(meuse, c("cadmium", "copper", "lead", "zinc"), do.log = TRUE, key.space = "right", as.table = TRUE, sp.layout=list(rv, scale, text1, text2, arrow), # note that rv is up front! main = "Heavy metals (top soil), ppm", cex =.7, cuts = cuts))

39 39 Krigování – základní prostorové odhady library(sp) library(lattice) # required for trellis.par.set(): trellis.par.set(sp.theme()) # sets color ramp to bpy.colors() alphaChannelSupported = function() { !is.na(match(names(dev.cur()), c("pdf"))) } data(meuse) coordinates(meuse)=~x+y data(meuse.riv) meuse.sr = SpatialPolygons(list(Polygons(list(Polygon(meuse.riv)),"meuse.riv"))) rv = list("sp.polygons", meuse.sr, fill = ifelse(alphaChannelSupported(), "blue", "transparent"), alpha = ifelse(alphaChannelSupported(), 0.1, 1)) pts = list("sp.points", meuse, pch = 3, col = "grey", alpha = ifelse(alphaChannelSupported(),.5, 1)) text1 = list("sp.text", c(180500,329900), "0", cex =.5, which = 4) text2 = list("sp.text", c(181000,329900), "500 m", cex =.5, which = 4) scale = list("SpatialPolygonsRescale", layout.scale.bar(), offset = c(180500,329800), scale = 500, fill=c("transparent","black"), which = 4) library(gstat, pos = match(paste("package", "sp", sep=":"), search()) + 1) data(meuse.grid) coordinates(meuse.grid) = ~x+y gridded(meuse.grid) = TRUE v.ok = variogram(log(zinc)~1, meuse) ok.model = fit.variogram(v.ok, vgm(1, "Exp", 500, 1)) v.uk = variogram(log(zinc)~sqrt(dist), meuse) uk.model = fit.variogram(v.uk, vgm(1, "Exp", 300, 1)) meuse[["ff"]] = factor(meuse[["ffreq"]]) meuse.grid[["ff"]] = factor(meuse.grid[["ffreq"]]) v.sk = variogram(log(zinc)~ff, meuse) sk.model = fit.variogram(v.sk, vgm(1, "Exp", 300, 1)) zn.ok = krige(log(zinc)~1, meuse, meuse.grid, model = ok.model) zn.uk = krige(log(zinc)~sqrt(dist), meuse, meuse.grid, model = uk.model) zn.sk = krige(log(zinc)~ff, meuse, meuse.grid, model = sk.model) zn.id = krige(log(zinc)~1, meuse, meuse.grid) zn = zn.ok zn[["a"]] = zn.ok[["var1.pred"]] zn[["b"]] = zn.uk[["var1.pred"]] zn[["c"]] = zn.sk[["var1.pred"]] zn[["d"]] = zn.id[["var1.pred"]] print(spplot(zn, c("a", "b", "c", "d"), names.attr = c("ordinary kriging", "universal kriging with dist to river", "stratified kriging with flood freq", "inverse distance"), as.table = TRUE, main = "log-zinc interpolation", sp.layout = list(rv, scale, text1, text2)) )

40 40 Krigování – základní prostorové odhady library(sp); library(lattice);trellis.par.set(sp.theme()) # sets color ramp to bpy.colors() alphaChannelSupported = function() { !is.na(match(names(dev.cur()), c("pdf")))} data(meuse) coordinates(meuse)=~x+y data(meuse.riv) meuse.sr = SpatialPolygons(list(Polygons(list(Polygon(meuse.riv)),"meuse.riv"))) rv = list("sp.polygons", meuse.sr, fill = "lightblue") scale = list("SpatialPolygonsRescale", layout.scale.bar(), offset = c(180500,329800), scale = 500, fill=c("transparent","black"), which = 4) text1 = list("sp.text", c(180500,329900), "0", cex =.5, which = 4) text2 = list("sp.text", c(181000,329900), "500 m", cex =.5, which = 4) arrow = list("SpatialPolygonsRescale", layout.north.arrow(), offset = c(181300,329800), scale = 400, which = 4) library(gstat, pos = match(paste("package", "sp", sep=":"), search()) + 1) data(meuse.grid) coordinates(meuse.grid) = ~x+y gridded(meuse.grid) = TRUE v.ok = variogram(log(zinc)~1, meuse) ok.model = fit.variogram(v.ok, vgm(1, "Exp", 500, 1)) v.uk = variogram(log(zinc)~sqrt(dist), meuse) uk.model = fit.variogram(v.uk, vgm(1, "Exp", 300, 1)) meuse[["ff"]] = factor(meuse[["ffreq"]]) meuse.grid[["ff"]] = factor(meuse.grid[["ffreq"]]) v.sk = variogram(log(zinc)~ff, meuse) sk.model = fit.variogram(v.sk, vgm(1, "Exp", 300, 1)) zn.ok = krige(log(zinc)~1, meuse, meuse.grid, model = ok.model) zn.uk = krige(log(zinc)~sqrt(dist), meuse, meuse.grid, model = uk.model) zn.sk = krige(log(zinc)~ff, meuse, meuse.grid, model = sk.model) zn.id = krige(log(zinc)~1, meuse, meuse.grid) rv = list("sp.polygons", meuse.sr, fill = ifelse(alphaChannelSupported(), "blue", "transparent"), alpha = ifelse(alphaChannelSupported(), 0.1, 1)) pts = list("sp.points", meuse, pch = 3, col = "grey", alpha = ifelse(alphaChannelSupported(),.5, 1)) print(spplot(zn.uk, "var1.pred", sp.layout = list(rv, scale, text1, text2, pts), main = "log(zinc); universal kriging using sqrt(dist to Meuse)")) zn.uk[["se"]] = sqrt(zn.uk[["var1.var"]]) ## Universal kriging standard errors; grid plot with point locations ## and polygon (river), pdf has transparency on points and river print(spplot(zn.uk, "se", sp.layout = list(rv, scale, text1, text2, pts), main = "log(zinc); universal kriging standard errors"))

41 41 Krigování – základní prostorové odhady

42 42 Krigování – základní prostorové odhady

43 43

44 44 Kategoriální data: logistická regrese, kontingenční tabulky

45 45

46 46 Příprava dat pro statistické zpracování  Data se ve statistických SW vyskytují především v datových rámcích (data frame).  Jde o tabulku se sloupcovými vektory. Každý vektor je na prvním řádku tabulky pojmenován jednoznačným názvem v rámci rámce. Název začíná písmenem, neobsahuje mezery, české znaky, atd. obsahuje pouze písmena a číslice anglické abecedy – pro označení platí ototéž co pro proměnné v progr. Jazycích  Pokud měříme jednu hodnotu ve více kategoriích, je ideální mít hodnotu v jediném sloupci a kategorie je v jiném sloupci.  Jde o analogii s databázovou tabulkou  Často se tímto způsobem zadávají i matice dat

47 47 Příprava dat pro statistické zpracování VzorekParAParBparC 115.48.14.5 215.07.9 VzorekParametrhodnota 1A15.4 1B8.1 1C4.5 2A15.0 2B7.9 Způsob 1 – lépe se vyplňuje a kontroluje Způsob 2 – ideální pro zpracování. méně přehledný

48 48 Příprava dat pro statistické zpracování Další poznámky:  Lze pracovat s chybějícím hodnotami (missing values)  Výběr metod může souviset se způsobem, jak byla data pořízena (podle jakého pravidla byl sběr dat ukončen, kromě měřených hodnot i další okolnosti sběru dat, jaká byla metodika sběru dat – jde o archivní data, či data cíleně sbíraná k tomuto zpracování, nejsou data autokorelovaná?)  Čím více parametrů se na daném objektu naměří, tím více metod se dá použít při zpracování  Nesourodé parametry lze porovnávat, kombinovat ve statistických modelech (lineární, logistické modely)

49 49 Symbolika grafických výstupů ve statistice  Box plot (krabicový diagram „plošný histogram“) notched box plot – pokud se zářezy nepřekrývají, mediány se významně liší. Box může ést i symboliku rozsahu výběru  Histogram  Trendové grafy, scatterplot (roztylové zobrazení, korelace, regrese)  Grafy souvislé s prostorovým rozmístěním zkoumaných dat  ---  Pie diagram, sunflower plot  Grafy teorie spolehlivosti

50 50 Symbolika grafických výstupů ve statistice – box plot

51 51 Symbolika grafických výstupů ve statistice

52 52 Symbolika grafických výstupů ve statistice – box plot a notched box plot

53 53 Symbolika grafických výstupů ve statistice – scatter plot

54 54 Symbolika grafických výstupů ve statistice

55 55 Symbolika grafických výstupů ve statistice

56 56 Symbolika grafických výstupů ve statistice

57 57 Symbolika grafických výstupů ve statistice

58 58 Teorie spolehlivosti  sleduje se a porovnává pravděpodobnost výskytu nějaké události v čase na daném objektu  přístup cenzorování: některé objekty v čase přestaneme sledovat, ale informaci, že nenastal sledovaný jev v určité období, lze využít  zpravidla jde o výskyt –recidivu nemoci, úmrtí pacienta, poruchu stroje, ale může jít i o jevy v neživé přírodě

59 59 Teorie spolehlivosti

60 60 Reference  Milan Meloun, Jiří Militký: Statistická analýza experimentálních dat, Academia 2004  Hebák, Hustopecký Jarošová, Pecáková: Vícerozměrné statistické metody  California soil resource lab http://casoilresource.lawr.ucdavis.edu/drupal/ http://casoilresource.lawr.ucdavis.edu/drupal/  Tomislav Hengl: A practical Guide to Geostatistical Mapping of Enviromental Variables, JRC Ispra, Italy 2007.

61 61  Děkuji za pozornost


Stáhnout ppt "1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec."

Podobné prezentace


Reklamy Google