是否有 R 包可以从频率 table 计算一阶转移矩阵?
Is there an R package to calculate 1st order transition matrix from a frequency table?
我有一个频率 table 从 8 亿条记录中聚合而成,我想知道我是否可以使用一个包来计算频率 table 的一阶转移矩阵,因为一些状态再也没有发生过。频率 table 的样本是:
library(data.table)
model.data <- data.table(state1 = c(3, 1, 2, 3), state2 = c(1, 2, 1, 2), Freq = c(1,2,3,4))
model.data 看起来像这样:
状态1
状态2
n
3
1
1
1
2
2
2
1
3
3
2
4
使用 package pollster,我可以计算比例 table:
library(pollster)
crosstab(model.data, state1, state2, Freq)
状态1
1
2
n
1
0
100
2
2
100
0
3
3
20
80
5
然而,我要找的对称转移矩阵是:
状态1
1
2
3
n
1
0
100
0
2
2
100
0
0
3
3
20
80
0
5
也就是说,即使没有人转换到它,我仍然想包括状态 3,并且代码应该能够自动找出 3 需要附加一列 0。
由于内存限制和计算速度慢,我不确定带有 markovchainFit 函数的 markovchain 包是否能够处理我需要将其转换为数百万序列列表的 8 亿行数据。
有人知道吗?
看来您可能已经知道 stats::xtabs
函数,因为您要求我们处理的结果似乎是 base::as.data.frame.table
函数的结果,该函数将“宽” table
调用相同数据的“长”data.frame 表示的结果。 (但也许不是,因为您发布了添加额外混淆列的民意测验代码。)在这里我们将反转该过程,以便我们可以恢复矩阵(R table
对象继承自)。
Do notice that I'm using your data object, but not using pkg:pollster code, since your tables didn't appear to be based on that data.table object.
如何获取零列,...只需在 state2=3
“列”位置放入一个零数据元素。您只需要在 state2 中为整个列添加一个数据点,但它显然需要来自某个 state1 值。它可以来自任何状态 1 值:
model.data <- data.table(state1 = c(3, 1, 2, 3, 3),
state2 = c(1, 2, 1, 2, 3),
Freq = c(1,2,3,4, 0))
xtabs(Freq~state1+state2, model.data)
#------------
state2
state1 1 2 3
1 0 2 0
2 3 0 0
3 1 4 0
添加注释:只是为了表明这在“pollster”tidyverse 环境中有效...
> library(pollster)
> crosstab(model.data, state1, state2, Freq)
# A tibble: 3 x 5
state1 `1` `2` `3` n
<dbl> <dbl> <dbl> <dbl> <dbl>
1 1 0 100 0 2
2 2 100 0 0 3
3 3 20 80 0 5
另外请注意,如果您想制作转换矩阵,则需要删除“n”列。 (我不太明白它代表什么。)
关于如何制作转换矩阵(如果需要,则将矩阵除以 rowSums
结果,因为转换矩阵需要每一行总和为一)
mat <- xtabs(Freq~state1+state2, model.data)
trans_mat <- mat/rowSums(mat)
trans_mat
#-----
state2
state1 1 2 3
1 0.0 1.0 0.0
2 1.0 0.0 0.0
3 0.2 0.8 0.0
现在您可以使用矩阵乘法计算任意离散区间的状态:参见 ?'%*%'
或矩阵求幂 ?expm::expm
这里进一步编写与转移矩阵上的矩阵运算相关的图来生成马尔可夫模拟:
Simple Markov Chain in R (visualization)
在 markovchain
包中提供了对马尔可夫序列的进一步统计操作,但我没有看到它有任何实际构建数据转换矩阵的功能。我可能是错的,因为我只阅读了小插图的前 5 个包。 (他们似乎假设每个人都会知道如何做到这一点,尽管当我为上面链接的答案编写代码时,我需要回到我的书上复习一下。)
选项igraph
model.data %>%
setorder(state1) %>%
graph_from_data_frame() %>%
as_adjacency_matrix(attr = "Freq", sparse = FALSE) %>%
proportions(1) # 1 sets rows as the margin, similar to `prop.table`
给予
1 2 3
1 0.0 1.0 0
2 1.0 0.0 0
3 0.2 0.8 0
或以 R 为基数
> proportions(xtabs(Freq ~ ., model.data), 1)
state2
state1 1 2
1 0.0 1.0
2 1.0 0.0
3 0.2 0.8
我有一个频率 table 从 8 亿条记录中聚合而成,我想知道我是否可以使用一个包来计算频率 table 的一阶转移矩阵,因为一些状态再也没有发生过。频率 table 的样本是:
library(data.table)
model.data <- data.table(state1 = c(3, 1, 2, 3), state2 = c(1, 2, 1, 2), Freq = c(1,2,3,4))
model.data 看起来像这样:
状态1 | 状态2 | n |
---|---|---|
3 | 1 | 1 |
1 | 2 | 2 |
2 | 1 | 3 |
3 | 2 | 4 |
使用 package pollster,我可以计算比例 table:
library(pollster)
crosstab(model.data, state1, state2, Freq)
状态1 | 1 | 2 | n |
---|---|---|---|
1 | 0 | 100 | 2 |
2 | 100 | 0 | 3 |
3 | 20 | 80 | 5 |
然而,我要找的对称转移矩阵是:
状态1 | 1 | 2 | 3 | n |
---|---|---|---|---|
1 | 0 | 100 | 0 | 2 |
2 | 100 | 0 | 0 | 3 |
3 | 20 | 80 | 0 | 5 |
也就是说,即使没有人转换到它,我仍然想包括状态 3,并且代码应该能够自动找出 3 需要附加一列 0。
由于内存限制和计算速度慢,我不确定带有 markovchainFit 函数的 markovchain 包是否能够处理我需要将其转换为数百万序列列表的 8 亿行数据。
有人知道吗?
看来您可能已经知道 stats::xtabs
函数,因为您要求我们处理的结果似乎是 base::as.data.frame.table
函数的结果,该函数将“宽” table
调用相同数据的“长”data.frame 表示的结果。 (但也许不是,因为您发布了添加额外混淆列的民意测验代码。)在这里我们将反转该过程,以便我们可以恢复矩阵(R table
对象继承自)。
Do notice that I'm using your data object, but not using pkg:pollster code, since your tables didn't appear to be based on that data.table object.
如何获取零列,...只需在 state2=3
“列”位置放入一个零数据元素。您只需要在 state2 中为整个列添加一个数据点,但它显然需要来自某个 state1 值。它可以来自任何状态 1 值:
model.data <- data.table(state1 = c(3, 1, 2, 3, 3),
state2 = c(1, 2, 1, 2, 3),
Freq = c(1,2,3,4, 0))
xtabs(Freq~state1+state2, model.data)
#------------
state2
state1 1 2 3
1 0 2 0
2 3 0 0
3 1 4 0
添加注释:只是为了表明这在“pollster”tidyverse 环境中有效...
> library(pollster)
> crosstab(model.data, state1, state2, Freq)
# A tibble: 3 x 5
state1 `1` `2` `3` n
<dbl> <dbl> <dbl> <dbl> <dbl>
1 1 0 100 0 2
2 2 100 0 0 3
3 3 20 80 0 5
另外请注意,如果您想制作转换矩阵,则需要删除“n”列。 (我不太明白它代表什么。)
关于如何制作转换矩阵(如果需要,则将矩阵除以 rowSums
结果,因为转换矩阵需要每一行总和为一)
mat <- xtabs(Freq~state1+state2, model.data)
trans_mat <- mat/rowSums(mat)
trans_mat
#-----
state2
state1 1 2 3
1 0.0 1.0 0.0
2 1.0 0.0 0.0
3 0.2 0.8 0.0
现在您可以使用矩阵乘法计算任意离散区间的状态:参见 ?'%*%'
或矩阵求幂 ?expm::expm
这里进一步编写与转移矩阵上的矩阵运算相关的图来生成马尔可夫模拟: Simple Markov Chain in R (visualization)
在 markovchain
包中提供了对马尔可夫序列的进一步统计操作,但我没有看到它有任何实际构建数据转换矩阵的功能。我可能是错的,因为我只阅读了小插图的前 5 个包。 (他们似乎假设每个人都会知道如何做到这一点,尽管当我为上面链接的答案编写代码时,我需要回到我的书上复习一下。)
选项igraph
model.data %>%
setorder(state1) %>%
graph_from_data_frame() %>%
as_adjacency_matrix(attr = "Freq", sparse = FALSE) %>%
proportions(1) # 1 sets rows as the margin, similar to `prop.table`
给予
1 2 3
1 0.0 1.0 0
2 1.0 0.0 0
3 0.2 0.8 0
或以 R 为基数
> proportions(xtabs(Freq ~ ., model.data), 1)
state2
state1 1 2
1 0.0 1.0
2 1.0 0.0
3 0.2 0.8