如何从访问过的地方列表(有效地)构建边缘列表?
How to construct an edgeliste from a list of visited places (effectively)?
我原来的 data.table
由三列组成。
site
、observation_number
和 id
。
例如以下是 id = z
的所有观察结果
|site|observation_number|id
|a | 1| z
|b | 2| z
|c | 3| z
这意味着 ID z
从 a
到 b
再到 c
。
每个 id 没有固定数量的网站。
我希望将数据转换为这样的边列表
|from |to||id|
|a | b| z |
|b | c| z |
模拟数据
sox <- data.table(site = c('a','b','c','a','c','c','a','d','e'),
obsnum =c(1,2,3,1,2,1,2,3,4),
id =c('z','z','z','y','y','k','k','k','k'))
我目前这样做的方式感觉很复杂,而且速度很慢(sox 有 1.5 mio 行,dt_out 有大约 7.5 mio. 行)。
我基本上使用 observation_number
上的 for 循环将数据分成块,其中每个 ID 只存在一次(即 - 只有一次旅程,到 - 从)。
然后我投射数据,并将所有块剥离到一个新的 data.table.
dt_out <- data.table()
maksimum = sox[,max(observation_number)]
for (i in 1:maksimum-1) {
i=1
mini = i
maxi = i+1
sox_t <- sox[observation_number ==maxi | observation_number ==mini, ]
temp_dt <- dcast(sox_t[id %in% sox_t[, .N, by = id][N>=2]$id,
.SD[, list(site, observation_number, a=rep(c('from', 'to')))] ,by=id],
id='id', value.var='site', formula=id~a)
dt_out <- rbind(dt_out, temp_dt)
i=max
}
我希望有人能帮我优化这个,最好创建一个函数,我可以在其中输入 data.table、站点 ID、observationnumber id 和 id。出于某种原因,我无法创建函数,不管它是否有效。
更新
使用系统时间(运行 系统时间几次):
User - System - Elapsed
make_edgelist (data.table): 5.38 0.00 5.38
Data.table. with shift: 13.96 0.06 14.08
dplyr, with arrange: 6.06 0.36 6.44
p.s。 make_edgelist 已更新以订购 data.table
make_edgelist <- function(DT, site_var = "site", id_var = "id", obsnum_var = "rn1") {
DT[order(get(obsnum_var)),
list(from = get(site_var)[-.N], to = get(site_var)[-1]), by = id_var]
}
令我惊讶的是 dplyr(lead
)几乎和 make_edgelist 一样快,并且比 shift
的 data.table 快得多。我想这意味着 dplyr 实际上会更快,更复杂 lead/lags/shift.
我也觉得这很令人费解 - 但不知道它是否有任何意义,dplyr 使用的 'system' 时间比两个 data.table 解决方案中的任何一个都多。
输入数据:150 万行。
结果:60 万行。
有了dplyr
,你可以试试:
sox %>%
group_by(id) %>%
transmute(from = site,
to = lead(from)) %>%
na.omit()
id from to
<chr> <chr> <chr>
1 z a b
2 z b c
3 y a c
4 k c a
5 k a d
6 k d e
正如@Sotos 指出的那样,首先排列数据可能会有用:
sox %>%
arrange(id, obsnum) %>%
group_by(id) %>%
transmute(from = site,
to = lead(from)) %>%
na.omit()
使用 data.table
,如果它比上面的 dplyr
解决方案更快,您有:
sox <- sox[order(id, obsnum)]
sox[, from := shift(site), by = "id"]
sox <- sox[!is.na(from)]
setnames(sox, "site", "to")
sox[, obsnum := NULL]
setcolorder(sox, c("id", "from", "to"))
sox
#> id from to
#> 1: k c a
#> 2: k a d
#> 3: k d e
#> 4: y a c
#> 5: z a b
#> 6: z b c
这是您要找的吗?
sox[, .(from = site[-.N], to = site[-1]), by = id]
# id from to
# 1: z a b
# 2: z b c
# 3: y a c
# 4: k c a
# 5: k a d
# 6: k d e
包装在函数中:
make_edgelist <- function(DT, site_var = "site", id_var = "id") {
DT[, .(from = get(site_var)[-.N], to = get(site_var)[-1]), by = id_var]
}
注意:此解决方案假定数据已按观察编号排序。为避免这种假设,请在第一个逗号前添加 order(obsnum)
。
我原来的 data.table
由三列组成。
site
、observation_number
和 id
。
例如以下是 id = z
的所有观察结果|site|observation_number|id
|a | 1| z
|b | 2| z
|c | 3| z
这意味着 ID z
从 a
到 b
再到 c
。
每个 id 没有固定数量的网站。
我希望将数据转换为这样的边列表
|from |to||id|
|a | b| z |
|b | c| z |
模拟数据
sox <- data.table(site = c('a','b','c','a','c','c','a','d','e'),
obsnum =c(1,2,3,1,2,1,2,3,4),
id =c('z','z','z','y','y','k','k','k','k'))
我目前这样做的方式感觉很复杂,而且速度很慢(sox 有 1.5 mio 行,dt_out 有大约 7.5 mio. 行)。
我基本上使用 observation_number
上的 for 循环将数据分成块,其中每个 ID 只存在一次(即 - 只有一次旅程,到 - 从)。
然后我投射数据,并将所有块剥离到一个新的 data.table.
dt_out <- data.table()
maksimum = sox[,max(observation_number)]
for (i in 1:maksimum-1) {
i=1
mini = i
maxi = i+1
sox_t <- sox[observation_number ==maxi | observation_number ==mini, ]
temp_dt <- dcast(sox_t[id %in% sox_t[, .N, by = id][N>=2]$id,
.SD[, list(site, observation_number, a=rep(c('from', 'to')))] ,by=id],
id='id', value.var='site', formula=id~a)
dt_out <- rbind(dt_out, temp_dt)
i=max
}
我希望有人能帮我优化这个,最好创建一个函数,我可以在其中输入 data.table、站点 ID、observationnumber id 和 id。出于某种原因,我无法创建函数,不管它是否有效。
更新
使用系统时间(运行 系统时间几次):
User - System - Elapsed
make_edgelist (data.table): 5.38 0.00 5.38
Data.table. with shift: 13.96 0.06 14.08
dplyr, with arrange: 6.06 0.36 6.44
p.s。 make_edgelist 已更新以订购 data.table
make_edgelist <- function(DT, site_var = "site", id_var = "id", obsnum_var = "rn1") {
DT[order(get(obsnum_var)),
list(from = get(site_var)[-.N], to = get(site_var)[-1]), by = id_var]
}
令我惊讶的是 dplyr(lead
)几乎和 make_edgelist 一样快,并且比 shift
的 data.table 快得多。我想这意味着 dplyr 实际上会更快,更复杂 lead/lags/shift.
我也觉得这很令人费解 - 但不知道它是否有任何意义,dplyr 使用的 'system' 时间比两个 data.table 解决方案中的任何一个都多。
输入数据:150 万行。 结果:60 万行。
有了dplyr
,你可以试试:
sox %>%
group_by(id) %>%
transmute(from = site,
to = lead(from)) %>%
na.omit()
id from to
<chr> <chr> <chr>
1 z a b
2 z b c
3 y a c
4 k c a
5 k a d
6 k d e
正如@Sotos 指出的那样,首先排列数据可能会有用:
sox %>%
arrange(id, obsnum) %>%
group_by(id) %>%
transmute(from = site,
to = lead(from)) %>%
na.omit()
使用 data.table
,如果它比上面的 dplyr
解决方案更快,您有:
sox <- sox[order(id, obsnum)]
sox[, from := shift(site), by = "id"]
sox <- sox[!is.na(from)]
setnames(sox, "site", "to")
sox[, obsnum := NULL]
setcolorder(sox, c("id", "from", "to"))
sox
#> id from to
#> 1: k c a
#> 2: k a d
#> 3: k d e
#> 4: y a c
#> 5: z a b
#> 6: z b c
这是您要找的吗?
sox[, .(from = site[-.N], to = site[-1]), by = id]
# id from to
# 1: z a b
# 2: z b c
# 3: y a c
# 4: k c a
# 5: k a d
# 6: k d e
包装在函数中:
make_edgelist <- function(DT, site_var = "site", id_var = "id") {
DT[, .(from = get(site_var)[-.N], to = get(site_var)[-1]), by = id_var]
}
注意:此解决方案假定数据已按观察编号排序。为避免这种假设,请在第一个逗号前添加 order(obsnum)
。