1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec.

2 Témata přednášky – časová osnova  Způsob uvažování ve statistice: práce s náhodou  Pojmy - odhady parametrů, testování hypotéz, modelování  -----------  Korelace a regrese, lineární modely (LM), analýza rozptylu (ANOVA, MANOVA)  Analýza hlavních komponent (PCA) – příklady z geologie  Shluková analýza (CLU) a diskriminační analýza (DA)– příklad z geologie  ------------  Krigování – základní prostorové odhady – geologický příklad  Kategoriální data: logistická regrese, kontingenční tabulky.  ------------  Příprava dat pro statistické zpracování  Symbolika grafických výstupů ve statistice

3 Čím se zabývá matematická statistika  Testování hypotéz o datech: datové soubory jsou podrobeny statistickému testu, který posoudí jejich shodnost či odlišnost nebo jsou data klasifikována do skupin podle jejich podobnosti  Odhady parametrů: daná data jsou popsána odvozeným parametrem – parametr je odhadnut i s intervalem spolehlivosti kolem něj  Modelování: složené použití shora uvedeného  Návrh experimetu – měření: schéma uspořádání experimetnu tak, aby mohl být co nejlépe analyzován shora uvedeným. Otázka, jakého původu data jsou je klíčová pro jejich analýzu

4 Způsob uvažování ve statistice

5 Experiment 100 hodů mincí - zcela náhodný experiment Případpočet HKolik případů v celé množině 0000000000...00001 případ 0000H00000…000 1100 případů … 0HHH00HHH00.HOH499.891308e+28 0H0H0HHH000…H0H501.008913e+29 případů ….519.891308e+28 HHHH0HHHH….HHHH99100 případů HHHHHHHHHH..HHHH1001 případ Celkem: 2^100, t.j. 1.267e+30 případů

11 Způsob uvažování ve statistice  Centrální limitní věta: součet náhodných veličin (s konečným rozptylem, nezávislých, se společnou střední hodnotou,..) konverguje k normálnímu rozdělení (Gausova křivka)  Zákon velkých čísel: aritmetický průměropakovaných realizací náhodné veličiny (nezávislých experimentů,..) konverguje ke střední hodnotě  Obecně: souhrn (kombinace) náhod vede k deterministickému výsledku.  Klasická statistika aproximuje náhodu pomocí limitních případů, ale vyžaduje dodržení řady podmínek, aby její závěry byly správné

12 Odhady parametrů, testování hypotéz  100 hodů=1 experiment=1 měření  Odhad parametru počet Orlů  Provedu několik experimentů (třeba n=300) a získám měření. Odhaduji teoretickou hodnotu, o které jsem teoreticky přesvědčen, že je 50. (nazývá se střední hodnota)  Pro odhad střední hodnoty použiji průměr získaných měření.  Interval spolehlivosti  Jak je můj odhad přesný?  Co když je moje mince nesymetrická a Orel padá více – jak to ověřím?

13 Odhady parametrů, testování hypotéz T-test: - podmínky:  veličiny pochází z normálního rozdělení pravděpodobnosti  Jsou vzájemně nezávislé Nulová hypotéza: Mince je ideální, t.j. sh=50. Test sh>50 sh<>50, sh<50 (jednostranné a oboustranné testy) Například pro n=300, při experimentálně získaném průměru 50.813 se již zamítá nulová hypotéza pro symetrickou minci na hladině p-value = 0.04119 Metoda je velmi citlivá, ale musí být splněny určité podmínky (často je lze v praxi obtížně zaručit)

14 Odhady parametrů, testování hypotéz  Náhrada t-testu neparametrickými testy:  Neparametrické testy se osvobozují od závislosti na rozdělení pravděpodobnosti tím, že pracují s pořadovými statistikami – laicky řečeno, nezáleží na konkrétních hodnotách naměřených dat, ale jen na jejich vzájemném pořadí / hodnocení závodníků bez stopek a měření, jen jejich porovnáním. Mezi různými skupinami se hodnotí jak jsou pořadově promíchány a abstrahuje se od konkrétních hodnot. To zjednoduší vstupní podmínky, učiní testy hodně odolné vůči exptrémním pozorováním, na úkor citlivosti testu  V éře před počítači bylo obtížné tabelovat nepar. testy  Kolmogorov-Smirnov test: testuje celou distribuční fci  Znaménkový Mann-Whitney test: testuje polohu středu

15 Závislost a nezávislost hodnot - kovariance  Ve statistice se závislost popisuje pomocí kovariance (je to míra lineární závislosti) cov(X,Y)=EXY-EXEY  Jedná se o (velmi) formální popis, abstrahuje od “funkční závislosti“  normovaná kovarinace se nazývá korelace. Nabývá hodnot (– 1,1), nezávislé jevy mají nulovou korelaci  Naopak: nulová korelace ještě nezaručuje nějaký případ závislosti (např. y=x^2 na symetrick0m intervalu kolem 0)  Máme-li náhodný vektor (sadu dat s několika parametry), lze sestavit kovarianční (korelační) matici závislostí jejích složek – formálně odpovídá vícerozměrnému rozptylu – viz např. PCA  pojem korelace a autokorelace, prostorové korelace

16 Lineární modely, korelace, regrese, analýza rozptylu  y=Xb +eps (eps náhodný vektor, s var. maticí V=I)  Zkoumaná veličina y se vysvětluje jakou souhrn několika faktorů (zapsaných do matice X a sečtených s vahami b) +chyba  Parametry se odhadnou (v Eukleidovském prostoru) metodou nejmenších čtverů (optimalizace, metrika)  Testování modelů a podmodelů zahrnuje širokou škálu případů :  Regresní modely (i třeba polynomická závislost je lineární v parametrech,  Analýza rozptylu: snaha vysvětlit chování veličiny podle příslušnostike kategoriím.  Kombinované modely,  Pro netriviální varianční matici V jde pak o širokou škálu úloh (např. geoprostorové odhady)

17 Regrese – příklad data Meuse (Máza) Vzorová data – těžké kovy na břehu řeky Mázy coordinates cadmium copper lead zinc elev dist om ffreq soil lime landuse dist.m 1 (181072, 333611) 11.7 85 299 1022 7.909 0.00135803 13.6 1 1 1 Ah 50 2 (181025, 333558) 8.6 81 277 1141 6.983 0.01222430 14.0 1 1 1 Ah 30 3 (181165, 333537) 6.5 68 199 640 7.800 0.10302900 13.0 1 1 1 Ah 150 4 (181298, 333484) 2.6 81 116 257 7.655 0.19009400 8.0 1 2 0 Ga 270 5 (181307, 333330) 2.8 48 117 269 7.480 0.27709000 8.7 1 2 0 Ah 380 6 (181390, 333260) 3.0 61 137 281 7.791 0.36406700 7.8 1 2 0 Ga 470 7 (181165, 333370) 3.2 31 132 346 8.217 0.19009400 9.2 1 2 0 Ah 240 8 (181027, 333363) 2.8 29 150 406 8.490 0.09215160 9.5 1 1 0 Ab 120 9 (181060, 333231) 2.4 37 133 347 8.668 0.18461400 10.6 1 1 0 Ab 240 10 (181232, 333168) 1.6 24 80 183 9.049 0.30970200 6.3 1 2 0 W 420 11 (181191, 333115) 1.4 25 86 189 9.015 0.31511600 6.4 1 2 0 Fh 400 12 (181032, 333031) 1.8 25 97 251 9.073 0.22812300 9.0 1 1 0 Ag 300 13 (180874, 333339) 11.2 93 285 1096 7.320 0.00000000 15.4 1 1 1 W 20 14 (180969, 333252) 2.5 31 183 504 8.815 0.11393200 8.4 1 1 0 Ah 130 15 (181011, 333161) 2.0 27 130 326 8.937 0.16833600 9.1 1 1 0 Ah 220 16 (180830, 333246) 9.5 86 240 1032 7.702 0.00000000 16.2 1 1 1 W 10 17 (180763, 333104) 7.0 74 133 606 7.160 0.01222430 16.0 1 1 1 W 10 18 (180694, 332972) 7.1 69 148 711 7.100 0.01222430 16.0 1 1 1 W 10 19 (180625, 332847) 8.7 69 207 735 7.020 0.00000000 13.7 1 1 1 W 10 20 (180555, 332707) 12.9 95 284 1052 6.860 0.00000000 14.8 1 1 1 10 21 (180642, 332708) 5.5 53 194 673 8.908 0.07034680 10.2 1 1 1 Am 80 22 (180704, 332717) 2.8 35 123 402 8.990 0.09751360 7.2 1 1 1 Am 140 23 (180704, 332664) 2.9 35 110 343 8.830 0.11393200 7.2 1 1 1 Ag 160 24 (181153, 332925) 1.7 24 85 218 9.020 0.34232100 7.0 1 2 0 Ah 440 25 (181147, 332823) 1.4 26 75 200 8.976 0.38580400 6.9 1 2 0 W 490 26 (181167, 332778) 1.5 22 76 194 8.973 0.42928900 6.3 1 2 0 W 530 27 (181008, 332777) 1.3 27 73 207 8.507 0.31511600 5.6 1 2 0 Ab 400

18 Regrese – příklad data Meuse (Máza)

19 Lineární modely: jednoduchá regrese (trend)

20 Lineární modely - shrnutí je důležitá následná analýza modelu nad daty analýza reziduí, QQplot, analýza odlehlých a vlivných (leverage) pozorování lze testovat významnost trendů model je „lineární“ jen ve odhadovaných svých parametrech – může pracovat i „nelineárními“ vztahy

21 Analýza hlavních komponent (PCA – Principal component analysis)  Vycházíme ze souboru, ve kterém je každý vzorek popsán mnoha, obecně korelovanými parametry  Smyslem analýzy hlavních komponent je snížit počet parametrů, které popisují zkoumaný soubor (jeho variabilitu).  To se provede vhodnou lineární transformací a to tak, aby první parametr popisoval co možná nejvíce variability, další pak co největší zbytek, atd. Tyto parametry jsou navzájem nekorelované.  Pokud jsme schopni variabilitu souboru vysvětlit z větší míry pomocí dvou komponent, můžeme si vzorky základního souboru graficky znázornit v rovině  podobné vzorky leží poblíž sebe, nepodobné jsou daleko od sebe.  Směry pohybu po rovině mají význam trendu odlišnosti

22 Analýza hlavních komponent Data: H. Gilíková

23 Analýza hlavních komponent Data: J. Franců

24 Shluková analýza (Cluster Analysis CLU, CA)  Vstup - analogie k PCA – mnohorozměrná data, zjišťování jejich podobností: jde dále: zařadí pozorování do shluků  Nazývaná též numerická taxonomie, úzce souvisí s diskriminační analýzou (archeologie, medicína,..)  je několik algoritmů, jak data shlukovat : hierarchické (aglomerace, nejbližší soused, Wardova metoda, těžiště) a nehierarchické způsoby shlukování (K-means, PAM – zárodečné body)  problémy: odlehlá pozorování, sjednocení měřítkové úrovně jednotlivých parametrů  Výstup: dendrogam – rozptylový diagram – úzce souvisí s PCA

25 Shluková analýza

26 ------------------

27 Diskriminační analýza  Používá se např. v antropologii pro klasifikaci nových nálezů, ale její užití je obecnější  Modelová situace: máme známé klasifikované předměty, které umíme popsat pomocí řady parametrů – v rámci skupiny je přirozená variabilita  Nyní najdeme další předmět a ptáme se, zda patří do některé z existujících skupin a do které z nich, s jakou pravděpodobností,.. atd

28 Diskriminační analýza - shluková analýza  Výchozí soubor :  502 horninových vzorků klasifikovaných do 7 skupin (A,A2,B.C,C2,D,E)  298 sedimentárních vzorků ze 6 lokalit.  U obou skupin souborů známy veličiny."Almandine" "Andradite" "Grossular" "Pyrope" "Spessartine" "Uvarovite"  Provedené analýzy – metodika:  Byla použita linerární diskriminační analýza,. Nejprve byl na základě souboru 502 horninových vzorků vypočten model diskriminační analýzy a diskriminátory, následně byly 298 sedimentární vzorky z oblastí 1-6 začleněny ke skupinám A-E pomocí predikce na základě určených diskriminátorů. Ke klasifikaci byly použity všechny dostupné veličiny s vyjímkou "Uvarovite". Vzhledem k hodnám "Uvarovite" jeho začlenění vedlo na úlohu se singulární kovarianční maticí.  Výsledné začlenění sedimentárních vzorků ke skupinám horninových vzorků popisuje následující tabulka, obsahující počty začleněných sedimentárních vzorků v každé skupině

29 Diskriminační analýza a shluková analýza

30 Diskriminační analýza

31 Diskriminační analýza

32 Diskriminační analýza d<<-read.table( file='sed.csv', header=TRUE, sep=";", na.strings=c("",'*','-')); dv<<-read.table( file='sed_vz.csv', header=TRUE, sep=";", na.strings=c("",'*','-')); library(cluster) x<-cbind(d$Almandine,d$Andradite,d$Grossular,d$Pyrope,d$Spessartine,d$Uvarovite) xv<-cbind(dv$Almandine,dv$Andradite,dv$Grossular,dv$Pyrope,dv$Spessartine,dv$Uvarovite) pamx <- pam(x, 5) summary(pamx) plot(pamx) cbind(d$skupina,pamx$clustering) pamxv <- pam(xv, 6) summary(pamxv) plot(pamxv) cbind(dv$Group,pamxv$clustering) par(ask=TRUE,mfcol=c(2,3)) #"Andradite" "Grossular" "Pyrope" "Spessartine" "Uvarovite" plot(d$Almandine~d$skupina,col="grey") plot(d$Grossular~d$skupina,col="grey") plot(d$Pyrope~d$skupina,col="grey") plot(d$Spessartine~d$skupina,col="grey") plot(d$Uvarovite~d$skupina,col="grey") tapply(dv$Almandine,dv$Group,mean) dv$Group<-as.factor(dv$Group); plot(dv$Almandine~dv$Group,col="grey") plot(dv$Grossular~dv$Group,col="grey") plot(dv$Pyrope~dv$Group,col="grey") plot(dv$Spessartine~dv$Group,col="grey") plot(dv$Uvarovite~dv$Group,col="grey")

33 Prostorově zaměřená analýza - krigování – základní prostorové odhady  jde o interpolaci hodnot v celé oblasti na základě několika existujících měření  z hlediska statistiky je důležitý výpočet odhadu přesnosti  souvisí s lineráními modely (regresí)  Z(s) = µ + eps(s)  µ je konstantní stacionární funkce a eps(s) je prostorově korelovaná část rozptylu zislá na s (element zkoumaného pole).  v(h)=1/2 E (z(s i )-z(s i +h)) 2

34 Variogram - ilustrace

35 Krigování – základní prostorové odhady  modelování veličiny s prostorovou vazbou  veličina je změřena pouze v určitých bodech (vzorek, vrt, nález)  odhaduje se hodnota veličiny v celé ploše (prostoru) mezi naměřenými hodnotami  1. krok: výpočet odhadu variogramu (t.j. závislost diferencí hodnot na vzdálenosti od sebe )  2. krok: interpolace hodnot (zpravidla se počítá v mřížce s určitým krokem)

36 Krigování – základní prostorové odhady par(ask=TRUE); library(sp) library(lattice) # required for trellis.par.set(): trellis.par.set(sp.theme()) # sets color ramp to bpy.colors() data(meuse) coordinates(meuse)=~x+y ## coloured points plot with legend in plotting area and scales: print(spplot(meuse, "zinc", do.log = TRUE, key.space=list(x=0.2,y=0.9,corner=c(0,1)), scales=list(draw=T)))

37 Krigování – základní prostorové odhady library(sp) library(lattice) # required for trellis.par.set(): trellis.par.set(sp.theme()) # sets color ramp to bpy.colors() data(meuse) coordinates(meuse)=~x+y data(meuse.riv) meuse.sr = SpatialPolygons(list(Polygons(list(Polygon(meuse.riv))," meuse.riv"))) ## same plot; north arrow now inside panel, custom panel function instead of sp.layout print(spplot(meuse, "zinc", panel = function(x, y,...) { sp.polygons(meuse.sr, fill = "lightblue") SpatialPolygonsRescale(layout.scale.bar(), offset = c(179900,329600), scale = 500, fill=c("transparent","black")) sp.text(c(179900,329700), "0") sp.text(c(180400,329700), "500 m") SpatialPolygonsRescale(layout.north.arrow(), offset = c(178750,332500), scale = 400) panel.pointsplot(x, y,...) }, do.log = TRUE, cuts = 7, key.space = list(x = 0.1, y = 0.93, corner = c(0,1)), main = "Top soil zinc concentration (ppm)"))

38 Krigování – základní prostorové odhady library(sp) library(lattice) # required for trellis.par.set(): trellis.par.set(sp.theme()) # sets color ramp to bpy.colors() data(meuse) coordinates(meuse)=~x+y data(meuse.riv) meuse.sr = SpatialPolygons(list(Polygons(list(Polygon(meuse.riv)),"meuse. riv"))) rv = list("sp.polygons", meuse.sr, fill = "lightblue") ## multi-panel plot, scales + north arrow only in last plot: ## using the "which" argument in a layout component ## (if which=4 was set as list component of sp.layout, the river ## would as well be drawn only in that (last) panel) scale = list("SpatialPolygonsRescale", layout.scale.bar(), offset = c(180500,329800), scale = 500, fill=c("transparent","black"), which = 4) text1 = list("sp.text", c(180500,329900), "0", cex =.5, which = 4) text2 = list("sp.text", c(181000,329900), "500 m", cex =.5, which = 4) arrow = list("SpatialPolygonsRescale", layout.north.arrow(), offset = c(181300,329800), scale = 400, which = 4) cuts = c(.2,.5,1,2,5,10,20,50,100,200,500,1000,2000) print(spplot(meuse, c("cadmium", "copper", "lead", "zinc"), do.log = TRUE, key.space = "right", as.table = TRUE, sp.layout=list(rv, scale, text1, text2, arrow), # note that rv is up front! main = "Heavy metals (top soil), ppm", cex =.7, cuts = cuts))

39 Krigování – základní prostorové odhady library(sp) library(lattice) # required for trellis.par.set(): trellis.par.set(sp.theme()) # sets color ramp to bpy.colors() alphaChannelSupported = function() { !is.na(match(names(dev.cur()), c("pdf"))) } data(meuse) coordinates(meuse)=~x+y data(meuse.riv) meuse.sr = SpatialPolygons(list(Polygons(list(Polygon(meuse.riv)),"meuse.riv"))) rv = list("sp.polygons", meuse.sr, fill = ifelse(alphaChannelSupported(), "blue", "transparent"), alpha = ifelse(alphaChannelSupported(), 0.1, 1)) pts = list("sp.points", meuse, pch = 3, col = "grey", alpha = ifelse(alphaChannelSupported(),.5, 1)) text1 = list("sp.text", c(180500,329900), "0", cex =.5, which = 4) text2 = list("sp.text", c(181000,329900), "500 m", cex =.5, which = 4) scale = list("SpatialPolygonsRescale", layout.scale.bar(), offset = c(180500,329800), scale = 500, fill=c("transparent","black"), which = 4) library(gstat, pos = match(paste("package", "sp", sep=":"), search()) + 1) data(meuse.grid) coordinates(meuse.grid) = ~x+y gridded(meuse.grid) = TRUE v.ok = variogram(log(zinc)~1, meuse) ok.model = fit.variogram(v.ok, vgm(1, "Exp", 500, 1)) v.uk = variogram(log(zinc)~sqrt(dist), meuse) uk.model = fit.variogram(v.uk, vgm(1, "Exp", 300, 1)) meuse[["ff"]] = factor(meuse[["ffreq"]]) meuse.grid[["ff"]] = factor(meuse.grid[["ffreq"]]) v.sk = variogram(log(zinc)~ff, meuse) sk.model = fit.variogram(v.sk, vgm(1, "Exp", 300, 1)) zn.ok = krige(log(zinc)~1, meuse, meuse.grid, model = ok.model) zn.uk = krige(log(zinc)~sqrt(dist), meuse, meuse.grid, model = uk.model) zn.sk = krige(log(zinc)~ff, meuse, meuse.grid, model = sk.model) zn.id = krige(log(zinc)~1, meuse, meuse.grid) zn = zn.ok zn[["a"]] = zn.ok[["var1.pred"]] zn[["b"]] = zn.uk[["var1.pred"]] zn[["c"]] = zn.sk[["var1.pred"]] zn[["d"]] = zn.id[["var1.pred"]] print(spplot(zn, c("a", "b", "c", "d"), names.attr = c("ordinary kriging", "universal kriging with dist to river", "stratified kriging with flood freq", "inverse distance"), as.table = TRUE, main = "log-zinc interpolation", sp.layout = list(rv, scale, text1, text2)) )

40 Krigování – základní prostorové odhady library(sp); library(lattice);trellis.par.set(sp.theme()) # sets color ramp to bpy.colors() alphaChannelSupported = function() { !is.na(match(names(dev.cur()), c("pdf")))} data(meuse) coordinates(meuse)=~x+y data(meuse.riv) meuse.sr = SpatialPolygons(list(Polygons(list(Polygon(meuse.riv)),"meuse.riv"))) rv = list("sp.polygons", meuse.sr, fill = "lightblue") scale = list("SpatialPolygonsRescale", layout.scale.bar(), offset = c(180500,329800), scale = 500, fill=c("transparent","black"), which = 4) text1 = list("sp.text", c(180500,329900), "0", cex =.5, which = 4) text2 = list("sp.text", c(181000,329900), "500 m", cex =.5, which = 4) arrow = list("SpatialPolygonsRescale", layout.north.arrow(), offset = c(181300,329800), scale = 400, which = 4) library(gstat, pos = match(paste("package", "sp", sep=":"), search()) + 1) data(meuse.grid) coordinates(meuse.grid) = ~x+y gridded(meuse.grid) = TRUE v.ok = variogram(log(zinc)~1, meuse) ok.model = fit.variogram(v.ok, vgm(1, "Exp", 500, 1)) v.uk = variogram(log(zinc)~sqrt(dist), meuse) uk.model = fit.variogram(v.uk, vgm(1, "Exp", 300, 1)) meuse[["ff"]] = factor(meuse[["ffreq"]]) meuse.grid[["ff"]] = factor(meuse.grid[["ffreq"]]) v.sk = variogram(log(zinc)~ff, meuse) sk.model = fit.variogram(v.sk, vgm(1, "Exp", 300, 1)) zn.ok = krige(log(zinc)~1, meuse, meuse.grid, model = ok.model) zn.uk = krige(log(zinc)~sqrt(dist), meuse, meuse.grid, model = uk.model) zn.sk = krige(log(zinc)~ff, meuse, meuse.grid, model = sk.model) zn.id = krige(log(zinc)~1, meuse, meuse.grid) rv = list("sp.polygons", meuse.sr, fill = ifelse(alphaChannelSupported(), "blue", "transparent"), alpha = ifelse(alphaChannelSupported(), 0.1, 1)) pts = list("sp.points", meuse, pch = 3, col = "grey", alpha = ifelse(alphaChannelSupported(),.5, 1)) print(spplot(zn.uk, "var1.pred", sp.layout = list(rv, scale, text1, text2, pts), main = "log(zinc); universal kriging using sqrt(dist to Meuse)")) zn.uk[["se"]] = sqrt(zn.uk[["var1.var"]]) ## Universal kriging standard errors; grid plot with point locations ## and polygon (river), pdf has transparency on points and river print(spplot(zn.uk, "se", sp.layout = list(rv, scale, text1, text2, pts), main = "log(zinc); universal kriging standard errors"))

41 Krigování – základní prostorové odhady

42 Krigování – základní prostorové odhady

44 Kategoriální data: logistická regrese, kontingenční tabulky

46 Příprava dat pro statistické zpracování  Data se ve statistických SW vyskytují především v datových rámcích (data frame).  Jde o tabulku se sloupcovými vektory. Každý vektor je na prvním řádku tabulky pojmenován jednoznačným názvem v rámci rámce. Název začíná písmenem, neobsahuje mezery, české znaky, atd. obsahuje pouze písmena a číslice anglické abecedy – pro označení platí ototéž co pro proměnné v progr. Jazycích  Pokud měříme jednu hodnotu ve více kategoriích, je ideální mít hodnotu v jediném sloupci a kategorie je v jiném sloupci.  Jde o analogii s databázovou tabulkou  Často se tímto způsobem zadávají i matice dat

47 Příprava dat pro statistické zpracování VzorekParAParBparC 115.48.14.5 215.07.9 VzorekParametrhodnota 1A15.4 1B8.1 1C4.5 2A15.0 2B7.9 Způsob 1 – lépe se vyplňuje a kontroluje Způsob 2 – ideální pro zpracování. méně přehledný

48 Příprava dat pro statistické zpracování Další poznámky:  Lze pracovat s chybějícím hodnotami (missing values)  Výběr metod může souviset se způsobem, jak byla data pořízena (podle jakého pravidla byl sběr dat ukončen, kromě měřených hodnot i další okolnosti sběru dat, jaká byla metodika sběru dat – jde o archivní data, či data cíleně sbíraná k tomuto zpracování, nejsou data autokorelovaná?)  Čím více parametrů se na daném objektu naměří, tím více metod se dá použít při zpracování  Nesourodé parametry lze porovnávat, kombinovat ve statistických modelech (lineární, logistické modely)

49 Symbolika grafických výstupů ve statistice  Box plot (krabicový diagram „plošný histogram“) notched box plot – pokud se zářezy nepřekrývají, mediány se významně liší. Box může ést i symboliku rozsahu výběru  Histogram  Trendové grafy, scatterplot (roztylové zobrazení, korelace, regrese)  Grafy souvislé s prostorovým rozmístěním zkoumaných dat  ---  Pie diagram, sunflower plot  Grafy teorie spolehlivosti

50 Symbolika grafických výstupů ve statistice – box plot

51 Symbolika grafických výstupů ve statistice

52 Symbolika grafických výstupů ve statistice – box plot a notched box plot

53 Symbolika grafických výstupů ve statistice – scatter plot

58 Teorie spolehlivosti  sleduje se a porovnává pravděpodobnost výskytu nějaké události v čase na daném objektu  přístup cenzorování: některé objekty v čase přestaneme sledovat, ale informaci, že nenastal sledovaný jev v určité období, lze využít  zpravidla jde o výskyt –recidivu nemoci, úmrtí pacienta, poruchu stroje, ale může jít i o jevy v neživé přírodě

59 Teorie spolehlivosti

60 Reference  Milan Meloun, Jiří Militký: Statistická analýza experimentálních dat, Academia 2004  Hebák, Hustopecký Jarošová, Pecáková: Vícerozměrné statistické metody  California soil resource lab http://casoilresource.lawr.ucdavis.edu/drupal/ http://casoilresource.lawr.ucdavis.edu/drupal/  Tomislav Hengl: A practical Guide to Geostatistical Mapping of Enviromental Variables, JRC Ispra, Italy 2007.

61  Děkuji za pozornost

1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec.

Podobné prezentace

Prezentace na téma: "1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec."— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec.

Podobné prezentace

Prezentace na téma: "1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec."— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář