每组 7 天移动平均线 - R
7 Day Moving Average per group - R
我有多个分类值的日常数据,存储为数据框:
YYYYMM Date ID Count
201401 01/01/2014 A 151
201401 01/01/2014 B 68
201401 01/01/2014 C 487
201401 02/01/2014 A 198
201401 02/01/2014 B 97
201401 02/01/2014 C 403
我正在尝试使用 ggplot 根据实际值绘制移动平均线。
我想做的是在我的数据框中创建第 5 列,其中包含平均值。
我试过这个解决方案(在此处找到:Constructing moving average over a categorical variable in R)
df$Mean<-0
library(plyr)
library(zoo)
ddply(
df, "ID",
transform,
df$Mean<-rollmean(Count, 7, na.pad=TRUE)
)
它有效,但它计算我的数据框中每一列的平均值,并在现有数据框中创建另一个数据框,所以我最终得到这样的结果:
YYYYMM Date ID Count Mean.YYYYMM Mean.Date Mean.ID Mean.Count
201401 01/01/2014 A 151 201401 01/01/2014 B 58.90
201401 01/01/2014 B 68 201401 01/01/2014 B 62.05
201401 01/01/2014 C 487 201401 01/01/2014 B 61.84
201401 02/01/2014 A 198 201401 01/01/2014 B 58.02
201401 02/01/2014 B 97 201401 01/01/2014 B 57.65
201401 02/01/2014 C 403 201401 01/01/2014 B 59.65
当我尝试绘制这个时
for (var in unique(df$ID))
{
ggplot(df[df$ID==var,], aes(x=Date)) +
geom_line(aes(y=Count),color="blue") +
geom_line(aes(y=Mean$Count),color="grey",linetype="dashed") +
facet_wrap(~ID) +
theme_bw()
}
我收到一条错误消息。我想知道我在这里遗漏了什么,或者是否有其他方法可以解决这个问题?
您没有提供足够的数据来创建组内的每周滚动平均值,但原则上它可以像这样工作:
library(tidyverse)
library(zoo)
my_data <- my_data %>%
group_by(ID) %>%
mutate(roll_mean = rollmean(Count, 2, na.pad = T))
使用 dplyr
你 group_by
你的 ID 变量,然后用滚动平均值创建一个新列。您可以使用标准 ggplot2
-syntax:
绘制它
ggplot(my_data, aes(Date, Count, group = 1)) +
geom_line(colour = "blue") +
geom_point(colour = "blue") +
geom_point(aes(y = roll_mean), colour = "red") +
facet_wrap(~ID)
#> Warning: Removed 3 rows containing missing values (geom_point).
数据
zzz <- "YYYYMM Date ID Count
201401 01/01/2014 A 151
201401 01/01/2014 B 68
201401 01/01/2014 C 487
201401 02/01/2014 A 198
201401 02/01/2014 B 97
201401 02/01/2014 C 403"
my_data <- read_table(zzz)
我有多个分类值的日常数据,存储为数据框:
YYYYMM Date ID Count
201401 01/01/2014 A 151
201401 01/01/2014 B 68
201401 01/01/2014 C 487
201401 02/01/2014 A 198
201401 02/01/2014 B 97
201401 02/01/2014 C 403
我正在尝试使用 ggplot 根据实际值绘制移动平均线。
我想做的是在我的数据框中创建第 5 列,其中包含平均值。
我试过这个解决方案(在此处找到:Constructing moving average over a categorical variable in R)
df$Mean<-0
library(plyr)
library(zoo)
ddply(
df, "ID",
transform,
df$Mean<-rollmean(Count, 7, na.pad=TRUE)
)
它有效,但它计算我的数据框中每一列的平均值,并在现有数据框中创建另一个数据框,所以我最终得到这样的结果:
YYYYMM Date ID Count Mean.YYYYMM Mean.Date Mean.ID Mean.Count
201401 01/01/2014 A 151 201401 01/01/2014 B 58.90
201401 01/01/2014 B 68 201401 01/01/2014 B 62.05
201401 01/01/2014 C 487 201401 01/01/2014 B 61.84
201401 02/01/2014 A 198 201401 01/01/2014 B 58.02
201401 02/01/2014 B 97 201401 01/01/2014 B 57.65
201401 02/01/2014 C 403 201401 01/01/2014 B 59.65
当我尝试绘制这个时
for (var in unique(df$ID))
{
ggplot(df[df$ID==var,], aes(x=Date)) +
geom_line(aes(y=Count),color="blue") +
geom_line(aes(y=Mean$Count),color="grey",linetype="dashed") +
facet_wrap(~ID) +
theme_bw()
}
我收到一条错误消息。我想知道我在这里遗漏了什么,或者是否有其他方法可以解决这个问题?
您没有提供足够的数据来创建组内的每周滚动平均值,但原则上它可以像这样工作:
library(tidyverse)
library(zoo)
my_data <- my_data %>%
group_by(ID) %>%
mutate(roll_mean = rollmean(Count, 2, na.pad = T))
使用 dplyr
你 group_by
你的 ID 变量,然后用滚动平均值创建一个新列。您可以使用标准 ggplot2
-syntax:
ggplot(my_data, aes(Date, Count, group = 1)) +
geom_line(colour = "blue") +
geom_point(colour = "blue") +
geom_point(aes(y = roll_mean), colour = "red") +
facet_wrap(~ID)
#> Warning: Removed 3 rows containing missing values (geom_point).
数据
zzz <- "YYYYMM Date ID Count
201401 01/01/2014 A 151
201401 01/01/2014 B 68
201401 01/01/2014 C 487
201401 02/01/2014 A 198
201401 02/01/2014 B 97
201401 02/01/2014 C 403"
my_data <- read_table(zzz)