通过取水站计算移动几何平均数
Calculate moving geometric mean by water sampling station
我需要通过各个采样站计算随时间推移粪便大肠菌群的移动几何平均值(在每个值我想要该值和前 29 个值的几何平均值)。当我从我们的数据库下载数据时,列 headers 是:
Station SampleDate FecalColiform
根据种植面积的不同,有几个到十几个站。
我试图改编我在 HERE:
找到的一些代码
#File: Fecal
Fecal <- group_by(Fecal, Station) %>%
arrange(SampleDate) %>%
mutate(logres = log10(ResultValue)) %>%
mutate(mgm = stats::filter(logres, rep(1/24, 24), sides =1))
这行得通,但问题是我不想要生成的日志值。我只想要常规的 geomean,这样我就可以绘制它并且每个人都可以轻松理解这些值。我试图以某种方式从 psych 包中偷偷使用 geometric.mean 函数,但我无法让它工作。
有计算移动平均线的资源和计算几何平均数的代码,我尝试将其中的几个结合起来。我找不到移动几何平均数的例子。
最终我想按站点绘制所有几何平均值,类似于上面 link 中的示例。
> dput(ByStationRGMData[1:10,])
structure(list(Station = c(114L, 114L, 114L, 114L, 114L, 114L,
114L, 114L, 114L, 114L), Classification = structure(c(3L, 3L,
3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L), .Label = c(" Approved ", " Conditionally Approved ",
" Prohibited "), class = "factor"), SampleDate = c(19890103L,
19890103L, 19890209L, 19890316L, 19890413L, 19890511L, 19890615L,
19890713L, 19890817L, 19890914L), SWTemp = c(NA, NA, 5L, 8L,
NA, 13L, 15L, 18L, NA, 18L), Salinity = c(NA, NA, 22L, 18L, NA,
26L, 22L, 24L, NA, 32L), FecalColiform = c(180, 49, 2, 17, 7.9,
1.8, 4.5, 11, 33, 1.8), RGM = c(NA_real_, NA_real_, NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_, NA_real_, NA_real_
)), .Names = c("Station", "Classification", "SampleDate", "SWTemp",
"Salinity", "FecalColiform", "RGM"), class = c("grouped_df",
"tbl_df", "tbl", "data.frame"), row.names = c(NA, -10L), vars = list(
Station), drop = TRUE, indices = list(0:9), group_sizes = 10L, biggest_group_size = 10L, labels = structure(list(
Station = 114L), class = "data.frame", row.names = c(NA,
-1L), vars = list(Station), drop = TRUE, .Names = "Station"))
我还想向数据框和图表添加移动的第 90 个百分位数。我尝试了以下方法:
ByStationRGMData <- RawData %>%
group_by(Station) %>%
arrange(SampleDate) %>%
mutate(RGM = as.numeric(rollapply(FecalColiform, 30, geometric.mean, fill=NA, align="right"))) +
mutate(F90 = as.numeric(rollapply(FecalColiform, 30, quantile, p=0.90, fill=NA, align="right")))
这给了我错误:
Error in mutate_(.data, .dots = lazyeval::lazy_dots(...)) : argument ".data" is missing, with no default
我似乎无法弄清楚我错过了什么。
您可以使用 zoo
包中的 rollapply
(此处使用内置 mtcars
数据框进行说明)。我使用了 3 个值的 window,但您可以在实际数据中将其设置为 30。 align="left"
使用当前值和 n-1 个先前值,其中 n 是 window 宽度:
library(psych)
library(dplyr)
library(zoo)
mtcars %>%
mutate(mpgGM = rollapply(mpg, 3, geometric.mean, fill=NA, align="left"))
包括一个分组变量以分别获得每个组的滚动几何平均值。
我需要通过各个采样站计算随时间推移粪便大肠菌群的移动几何平均值(在每个值我想要该值和前 29 个值的几何平均值)。当我从我们的数据库下载数据时,列 headers 是:
Station SampleDate FecalColiform
根据种植面积的不同,有几个到十几个站。
我试图改编我在 HERE:
找到的一些代码#File: Fecal
Fecal <- group_by(Fecal, Station) %>%
arrange(SampleDate) %>%
mutate(logres = log10(ResultValue)) %>%
mutate(mgm = stats::filter(logres, rep(1/24, 24), sides =1))
这行得通,但问题是我不想要生成的日志值。我只想要常规的 geomean,这样我就可以绘制它并且每个人都可以轻松理解这些值。我试图以某种方式从 psych 包中偷偷使用 geometric.mean 函数,但我无法让它工作。
有计算移动平均线的资源和计算几何平均数的代码,我尝试将其中的几个结合起来。我找不到移动几何平均数的例子。
最终我想按站点绘制所有几何平均值,类似于上面 link 中的示例。
> dput(ByStationRGMData[1:10,])
structure(list(Station = c(114L, 114L, 114L, 114L, 114L, 114L,
114L, 114L, 114L, 114L), Classification = structure(c(3L, 3L,
3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L), .Label = c(" Approved ", " Conditionally Approved ",
" Prohibited "), class = "factor"), SampleDate = c(19890103L,
19890103L, 19890209L, 19890316L, 19890413L, 19890511L, 19890615L,
19890713L, 19890817L, 19890914L), SWTemp = c(NA, NA, 5L, 8L,
NA, 13L, 15L, 18L, NA, 18L), Salinity = c(NA, NA, 22L, 18L, NA,
26L, 22L, 24L, NA, 32L), FecalColiform = c(180, 49, 2, 17, 7.9,
1.8, 4.5, 11, 33, 1.8), RGM = c(NA_real_, NA_real_, NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_, NA_real_, NA_real_
)), .Names = c("Station", "Classification", "SampleDate", "SWTemp",
"Salinity", "FecalColiform", "RGM"), class = c("grouped_df",
"tbl_df", "tbl", "data.frame"), row.names = c(NA, -10L), vars = list(
Station), drop = TRUE, indices = list(0:9), group_sizes = 10L, biggest_group_size = 10L, labels = structure(list(
Station = 114L), class = "data.frame", row.names = c(NA,
-1L), vars = list(Station), drop = TRUE, .Names = "Station"))
我还想向数据框和图表添加移动的第 90 个百分位数。我尝试了以下方法:
ByStationRGMData <- RawData %>%
group_by(Station) %>%
arrange(SampleDate) %>%
mutate(RGM = as.numeric(rollapply(FecalColiform, 30, geometric.mean, fill=NA, align="right"))) +
mutate(F90 = as.numeric(rollapply(FecalColiform, 30, quantile, p=0.90, fill=NA, align="right")))
这给了我错误:
Error in mutate_(.data, .dots = lazyeval::lazy_dots(...)) : argument ".data" is missing, with no default
我似乎无法弄清楚我错过了什么。
您可以使用 zoo
包中的 rollapply
(此处使用内置 mtcars
数据框进行说明)。我使用了 3 个值的 window,但您可以在实际数据中将其设置为 30。 align="left"
使用当前值和 n-1 个先前值,其中 n 是 window 宽度:
library(psych)
library(dplyr)
library(zoo)
mtcars %>%
mutate(mpgGM = rollapply(mpg, 3, geometric.mean, fill=NA, align="left"))
包括一个分组变量以分别获得每个组的滚动几何平均值。