计算具有不同 lag/lead 的向量中元素的差异
Calculating the difference of elements in a vector with varying lag/lead
我有一些实验室数据,我希望计算移动时间 frame/window 中样本测量值之间的差异,例如 2 分钟(相对于 0-2、2-4、4-6 分钟,静态 windows)
问题是虽然每秒对数据进行采样,但仍有一些丢失的样本(例如 1,2,4,6,7),所以我不能使用固定滞后函数,尤其是对于较长时间 windows.
这是我尝试过的最有希望的。我试图计算行位置的差异,然后使用它来确定滞后值。
library(tidyverse)
df <- data.frame(sample_group = c(rep("a", 25), rep("b", 25)),t_seconds = c(1:50), measurement = seq(1,100,2))
df <- df[-c(5,10,23,33,44),] #remove samples
t_window = 5
df_diff <- df %>%
group_by(sample_group) %>%
arrange(t_seconds) %>%
mutate(lag_row = min(which(t_seconds >= t_seconds + t_window))- min(which(t_seconds == t_seconds)), #attempt to identify the lag value for each element
Meas_diff = measurement - lag(measurement, lag_row))
在这个例子中(lag_row)我试图从向量和向量本身调用一个元素,这显然是行不通的!为了更清楚,我添加了“_v”来标识我想要的向量和“_e”作为该向量的元素 min(which(t_seconds_v >= t_seconds_e + t_window))- min(which(t_seconds_v == t_seconds_e))
我试图避免使用循环,但未能解决问题。
如果有人有更好的想法,我将不胜感激?
您的第一步应该是将缺失的观察结果插入到您的时间序列中。然后,您可以使用 Last-Observation-Carried-Backwards 操作填充缺失值。这为您提供了一个完整的常规时间序列。
您想要的输出非常不清楚,因此以下示例中的下一步只是猜测。根据需要进行调整。
#complete time series (using a data.table join):
library(data.table)
setDT(df)
df_fill <- df[, .SD[data.table(t_seconds = min(t_seconds):max(t_seconds)),
on = "t_seconds"],
by = sample_group]
df_fill[, filled := is.na(measurement)]
#last observation carried backwards
library(zoo)
df_fill[, measurement := na.locf(measurement, fromLast = TRUE), by = sample_group]
#differences
df_fill[, diff_value := shift(measurement, -t_window) - measurement, by = sample_group]
我有一些实验室数据,我希望计算移动时间 frame/window 中样本测量值之间的差异,例如 2 分钟(相对于 0-2、2-4、4-6 分钟,静态 windows) 问题是虽然每秒对数据进行采样,但仍有一些丢失的样本(例如 1,2,4,6,7),所以我不能使用固定滞后函数,尤其是对于较长时间 windows.
这是我尝试过的最有希望的。我试图计算行位置的差异,然后使用它来确定滞后值。
library(tidyverse)
df <- data.frame(sample_group = c(rep("a", 25), rep("b", 25)),t_seconds = c(1:50), measurement = seq(1,100,2))
df <- df[-c(5,10,23,33,44),] #remove samples
t_window = 5
df_diff <- df %>%
group_by(sample_group) %>%
arrange(t_seconds) %>%
mutate(lag_row = min(which(t_seconds >= t_seconds + t_window))- min(which(t_seconds == t_seconds)), #attempt to identify the lag value for each element
Meas_diff = measurement - lag(measurement, lag_row))
在这个例子中(lag_row)我试图从向量和向量本身调用一个元素,这显然是行不通的!为了更清楚,我添加了“_v”来标识我想要的向量和“_e”作为该向量的元素 min(which(t_seconds_v >= t_seconds_e + t_window))- min(which(t_seconds_v == t_seconds_e))
我试图避免使用循环,但未能解决问题。 如果有人有更好的想法,我将不胜感激?
您的第一步应该是将缺失的观察结果插入到您的时间序列中。然后,您可以使用 Last-Observation-Carried-Backwards 操作填充缺失值。这为您提供了一个完整的常规时间序列。
您想要的输出非常不清楚,因此以下示例中的下一步只是猜测。根据需要进行调整。
#complete time series (using a data.table join):
library(data.table)
setDT(df)
df_fill <- df[, .SD[data.table(t_seconds = min(t_seconds):max(t_seconds)),
on = "t_seconds"],
by = sample_group]
df_fill[, filled := is.na(measurement)]
#last observation carried backwards
library(zoo)
df_fill[, measurement := na.locf(measurement, fromLast = TRUE), by = sample_group]
#differences
df_fill[, diff_value := shift(measurement, -t_window) - measurement, by = sample_group]