计算沿动物运动路径的点之间的距离和时间
calculate distance and time between points along animal movement path
我有一个大型数据集(> 900 万行),其中包含在站点检测到个体动物的时间和位置。我想计算每只动物在各站之间行进时沿着每只动物路径的每个站之间的距离,以及在各站之间行进所花费的时间。然后我想总结一下路径所有部分的总距离和时间。
对于此数据集中的每个个体,数据都是按照每次在固定点检测到的时间来组织的。如果这个人长时间处于静止点,连续一段时间,那么这个时间段有多个记录(每个间隔约 30 秒)。
我可以总结下面的数据,每次有人在车站时得到 1 行(见下文)。但是,当一个人多次前往同一个车站时,输出无法识别。
例如
id <- c("A", "A", "A", "A", "A", "A", "A", "A", "B", "B")
site <- c("a", "a", "b", "a", "c", "c", "c", "d", "a", "b")
time <- seq(1:10)
lat <- c(1, 1, 2, 1, 3, 3, 3, 4, 1, 2)
lon <- c(1, 1, 2, 1, 3, 3, 3, 4, 1, 2)
df <- data.frame(id, site, time, lat, lon)
df %>% group_by(id, site, lat, lon) %>%
summarize(timeStart = min(time),
timeEnd = max(time))
# A tibble: 6 x 6
# Groups: id, site, lat [?]
id site lat lon timeStart timeEnd
<fct> <fct> <dbl> <dbl> <dbl> <dbl>
1 A a 1 1 1 4
2 A b 2 2 3 3
3 A c 3 3 5 7
4 A d 4 4 8 8
5 B a 1 1 9 9
6 B b 2 2 10 10
我是一种对数据进行分组的方法,以便将对同一站点的多次访问(中间到其他站点的行程)识别为单独的 "leg" 行程。
然后,我需要计算每个站点之间的大圆距离,以及timeEnd(第一个站点)和timeStart(第二个站点)之间的时间差。
这可能不是您的完整解决方案,但它是一个好的开始。
这将找到每行数据之间的距离和时间差异,并在 id 在行之间更改时将值设置为 NA。
df <- data.frame(id, site, time, lat, lon)
library(geosphere)
library(dplyr)
#sort data by id and time
df<-df[order(df$id, df$time), ]
#find distance between each point in column
# Note longitude is the first column
df$distance<-c(NA, distGeo(df[,c("lon", "lat")]))
#find delta time between each row for each id
df<-df %>% group_by(id) %>% mutate(dtime=case_when(site != lag(site) ~ time-lag(time),
TRUE ~ NA_integer_))
#remove distances where there was no delta time (row pairs with different ids)
df$distance[is.na(df$dtime)]<-NA
#id summary
df%>% summarize(disttraveled=sum(distance, na.rm=TRUE), totaltime=sum(dtime, na.rm=TRUE))
首先,data.table
函数rleid
用于创建分组变量:对于每个个体,站点的每个变化代表一个新的组。在每个组中,计算所需的统计数据:
library(data.table)
library(geosphere)
setDT(df)
df2 <- df[ , .(id = id[1],
site = site[1],
lat = lat[1],
lon = lon[1],
first_time = min(time),
last_time = max(time)),
by = .(id_site = rleid(id, site))]
然后,对于每个个体,连续站点之间的顺序大圆距离用 geosphere::distHaversine
计算。为了避免个人只有一个或两个记录*时出现问题,增加了一些检查:
df2[ , dist := if(.N == 1){
0 } else if(.N == 2){
c(0, distHaversine(c(lon[1], lat[1]), c(lon[2], lat[2])))
} else c(0, distHaversine(as.matrix(.SD[ , .(lon, lat)]))), by = id]
# id_site id site lat lon first_time last_time dist
# 1: 1 A a 1 1 1 2 0.0
# 2: 2 A b 2 2 3 3 157401.6
# 3: 3 A a 1 1 4 4 157401.6
# 4: 4 A c 3 3 5 7 314755.2
# 5: 5 A d 4 4 8 8 157281.8
# 6: 6 B a 1 1 9 9 0.0
# 7: 7 B b 2 2 10 10 157401.6
# 8: 8 C a 1 1 11 11 0.0
因此,对于每个人,每个新站点只计算一次距离。这与另一个答案形成对比,后者在 每个时间步 之间执行距离计算(看起来可能很多)。
*尝试例如distHaversine(cbind(1, 1))
(distGeo(cbind(1, 1))
), 或 distHaversine(cbind(c(1, 1), c(1, 2)))
(distGeo(cbind(c(1, 1), c(1, 2)))
)
数据
我添加了一个只有一条记录的个人作为测试用例。
id <- c("A", "A", "A", "A", "A", "A", "A", "A", "B", "B", "C")
site <- c("a", "a", "b", "a", "c", "c", "c", "d", "a", "b", "a")
time <- seq(1:11)
lat <- c(1, 1, 2, 1, 3, 3, 3, 4, 1, 2, 1)
lon <- c(1, 1, 2, 1, 3, 3, 3, 4, 1, 2, 1)
df <- data.frame(id, site, time, lat, lon)
我有一个大型数据集(> 900 万行),其中包含在站点检测到个体动物的时间和位置。我想计算每只动物在各站之间行进时沿着每只动物路径的每个站之间的距离,以及在各站之间行进所花费的时间。然后我想总结一下路径所有部分的总距离和时间。
对于此数据集中的每个个体,数据都是按照每次在固定点检测到的时间来组织的。如果这个人长时间处于静止点,连续一段时间,那么这个时间段有多个记录(每个间隔约 30 秒)。
我可以总结下面的数据,每次有人在车站时得到 1 行(见下文)。但是,当一个人多次前往同一个车站时,输出无法识别。
例如
id <- c("A", "A", "A", "A", "A", "A", "A", "A", "B", "B")
site <- c("a", "a", "b", "a", "c", "c", "c", "d", "a", "b")
time <- seq(1:10)
lat <- c(1, 1, 2, 1, 3, 3, 3, 4, 1, 2)
lon <- c(1, 1, 2, 1, 3, 3, 3, 4, 1, 2)
df <- data.frame(id, site, time, lat, lon)
df %>% group_by(id, site, lat, lon) %>%
summarize(timeStart = min(time),
timeEnd = max(time))
# A tibble: 6 x 6
# Groups: id, site, lat [?]
id site lat lon timeStart timeEnd
<fct> <fct> <dbl> <dbl> <dbl> <dbl>
1 A a 1 1 1 4
2 A b 2 2 3 3
3 A c 3 3 5 7
4 A d 4 4 8 8
5 B a 1 1 9 9
6 B b 2 2 10 10
我是一种对数据进行分组的方法,以便将对同一站点的多次访问(中间到其他站点的行程)识别为单独的 "leg" 行程。
然后,我需要计算每个站点之间的大圆距离,以及timeEnd(第一个站点)和timeStart(第二个站点)之间的时间差。
这可能不是您的完整解决方案,但它是一个好的开始。 这将找到每行数据之间的距离和时间差异,并在 id 在行之间更改时将值设置为 NA。
df <- data.frame(id, site, time, lat, lon)
library(geosphere)
library(dplyr)
#sort data by id and time
df<-df[order(df$id, df$time), ]
#find distance between each point in column
# Note longitude is the first column
df$distance<-c(NA, distGeo(df[,c("lon", "lat")]))
#find delta time between each row for each id
df<-df %>% group_by(id) %>% mutate(dtime=case_when(site != lag(site) ~ time-lag(time),
TRUE ~ NA_integer_))
#remove distances where there was no delta time (row pairs with different ids)
df$distance[is.na(df$dtime)]<-NA
#id summary
df%>% summarize(disttraveled=sum(distance, na.rm=TRUE), totaltime=sum(dtime, na.rm=TRUE))
首先,data.table
函数rleid
用于创建分组变量:对于每个个体,站点的每个变化代表一个新的组。在每个组中,计算所需的统计数据:
library(data.table)
library(geosphere)
setDT(df)
df2 <- df[ , .(id = id[1],
site = site[1],
lat = lat[1],
lon = lon[1],
first_time = min(time),
last_time = max(time)),
by = .(id_site = rleid(id, site))]
然后,对于每个个体,连续站点之间的顺序大圆距离用 geosphere::distHaversine
计算。为了避免个人只有一个或两个记录*时出现问题,增加了一些检查:
df2[ , dist := if(.N == 1){
0 } else if(.N == 2){
c(0, distHaversine(c(lon[1], lat[1]), c(lon[2], lat[2])))
} else c(0, distHaversine(as.matrix(.SD[ , .(lon, lat)]))), by = id]
# id_site id site lat lon first_time last_time dist
# 1: 1 A a 1 1 1 2 0.0
# 2: 2 A b 2 2 3 3 157401.6
# 3: 3 A a 1 1 4 4 157401.6
# 4: 4 A c 3 3 5 7 314755.2
# 5: 5 A d 4 4 8 8 157281.8
# 6: 6 B a 1 1 9 9 0.0
# 7: 7 B b 2 2 10 10 157401.6
# 8: 8 C a 1 1 11 11 0.0
因此,对于每个人,每个新站点只计算一次距离。这与另一个答案形成对比,后者在 每个时间步 之间执行距离计算(看起来可能很多)。
*尝试例如distHaversine(cbind(1, 1))
(distGeo(cbind(1, 1))
), 或 distHaversine(cbind(c(1, 1), c(1, 2)))
(distGeo(cbind(c(1, 1), c(1, 2)))
)
数据
我添加了一个只有一条记录的个人作为测试用例。
id <- c("A", "A", "A", "A", "A", "A", "A", "A", "B", "B", "C")
site <- c("a", "a", "b", "a", "c", "c", "c", "d", "a", "b", "a")
time <- seq(1:11)
lat <- c(1, 1, 2, 1, 3, 3, 3, 4, 1, 2, 1)
lon <- c(1, 1, 2, 1, 3, 3, 3, 4, 1, 2, 1)
df <- data.frame(id, site, time, lat, lon)