使用 dplyr 进行线性插值

Linear Interpolation using dplyr

我正在尝试使用 zoo 库中的 na.approx() 函数(与 xts 结合使用)从具有多个测量值的多个个体的重复测量数据中插入缺失值.

示例数据...

event.date <- c("2010-05-25", "2010-09-10", "2011-05-13", "2012-03-28", "2013-03-07",    
                "2014-02-13", "2010-06-11", "2010-09-10", "2011-05-13", "2012-03-28",
                "2013-03-07", "2014-02-13")
variable   <- c("neck.bmd", "neck.bmd", "neck.bmd", "neck.bmd", "neck.bmd", "neck.bmd",
                "wbody.bmd", "wbody.bmd", "wbody.bmd", "wbody.bmd", "wbody.bmd", "wbody.bmd")
value      <- c(0.7490, 0.7615, 0.7900, 0.7730, NA, 0.7420, 1.0520, 1.0665, 1.0760,
                1.0870, NA, 1.0550)
## Bind into a data frame
df <- data.frame(event.date, variable, value)
rm(event.date, variable, value)
## Convert date
df$event.date <- as.Date(df$event.date)
## Load libraries
library(magrittr)
library(xts)
library(zoo)

我可以使用 xts()na.approx() 为给定的人的单个结果插入一个缺失的数据点......

## Subset one variable
wbody <- subset(df, variable == "wbody.bmd")
## order/index and then interpolate
xts(wbody$value, wbody$event.date) %>%
  na.approx()
2010-06-11 1.052000
2010-09-10 1.066500
2011-05-13 1.076000
2012-03-28 1.087000
2013-03-07 1.070977
2014-02-13 1.055000

返回矩阵不太理想,但我可以解决这个问题。不过,我遇到的主要问题是我对多人有多种结果。我,也许天真地认为,因为这是一个拆分应用组合问题,所以我可以利用 dplyr 以下列方式实现这一点...

## Load library
library(dplyr)
## group and then arrange the data (to ensure dates are correct)
df %>%
  group_by(variable) %>%
    arrange(variable, event.date) %>%
      xts(.$value, .$event.date) %>%
        na.approx()

Error in xts(., .$value, .$event.date) : order.by requires an appropriate time-based object

似乎 dplyr 不能很好地与 xts/zoo 搭配使用,我花了几个小时四处寻找 tutorials/examples如何在 R 中插入缺失的数据点,但我发现的都是单个案例,到目前为止,我一直无法找到任何关于如何为多个人的多个站点执行此操作的信息(我意识到我可以把它做成一个多人通过将我的数据重塑为宽的问题,但这仍然不能解决我遇到的问题)。

任何关于如何进行的thoughts/advice/insights将不胜感激。

谢谢

编辑:说明一些函数来自 zoo 包。

我采用的解决方案基于@docendodiscimus

的第一条评论

与我一直以来尝试创建新数据框不同,这种方法只是利用 dplyrmutate() 函数向现有数据框添加列。

我的代码现在是...

df %>%
  group_by(variable) %>%
    arrange(variable, event.date) %>%
      mutate(ip.value = na.approx(value, maxgap = 4, rule = 2))

maxgap 允许最多四个连续的 NA,而 rule 选项允许外推到侧翼时间点。

使用approx()函数进行线性插值:

df %>%
  group_by(variable) %>%
    arrange(variable, event.date) %>%
    mutate(time=seq(1,n())) %>%
      mutate(ip.value=approx(time,value,time)$y) %>%
      select(-time)

或非线性插值的spline函数:

df %>%
  group_by(variable) %>%
    arrange(variable, event.date) %>%
    mutate(time=seq(1,n())) %>%
      mutate(ip.value=spline(time,value ,n=n())$y) %>%
      select(-time)