当序列包含间隙时如何计算序列之间的差异性?
How to compute dissimilarities between sequences when sequences contain gaps?
我想根据包含缺失的数据(即包含缺口的序列)TraMineR::seqdist()
对具有最佳匹配的序列进行聚类。
library(TraMineR)
data(ex1)
sum(is.na(ex1))
# [1] 38
sq <- seqdef(ex1[1:13])
sq
# Sequence
# s1 *-*-*-A-A-A-A-A-A-A-A-A-A
# s2 D-D-D-B-B-B-B-B-B-B
# s3 *-D-D-D-D-D-D-D-D-D-D
# s4 A-A-*-*-B-B-B-B-D-D
# s5 A-*-A-A-A-A-*-A-A-A
# s6 *-*-*-C-C-C-C-C-C-C
# s7 *-*-*-*-*-*-*-*-*-*-*-*-*
sm <- seqsubm(sq, method='TRATE')
round(sm,digits=3)
# A-> B-> C-> D->
# A-> 0 2.000 2 2.000
# B-> 2 0.000 2 1.823
# C-> 2 2.000 0 2.000
# D-> 2 1.823 2 0.000
当我运行seqdist()
dist.om <- seqdist(sq, method="OM", indel=1, sm=sm)
我正在收到
Error: 'with.missing' must be TRUE when 'seqdata' or 'refseq' contains missing values
但是当我设置选项时 with.missing=TRUE
我收到
[>] including missing values as an additional state
[>] 7 sequences with 5 distinct states
[>] checking 'sm' (one value for each state, triangle inequality)
Error: [!] size of substitution cost matrix must be 5x5
那么,当数据包含缺失(即序列包含间隙)时,我们如何使用 seqdist()
和 seqsubm()
的输出正确计算序列之间的差异?
注意:我不太确定这是否有意义。到目前为止,我只是排除了有缺失的观察结果,但由于我的数据,我因此失去了很多观察结果。因此,了解是否有这样的选项是值得的。
当你有间隙时,计算距离有不同的策略。
1) 第一种解决方案是将缺失状态视为附加状态。这就是当你设置 with.missing=TRUE
时 seqdist
所做的。在这种情况下,sm
矩阵应包含用缺失状态替换任何状态的成本。使用 seqsubm
您只需要为该函数也指定 with.missing=TRUE
。默认情况下,替代 'missing' 的替代成本设置为固定值 miss.cost
(默认为 2)。
sm <- seqsubm(sq, method='TRATE', with.missing=TRUE)
round(sm,digits=3)
# A-> B-> C-> D-> *->
# A-> 0 2.000 2 2.000 2
# B-> 2 0.000 2 1.823 2
# C-> 2 2.000 0 2.000 2
# D-> 2 1.823 2 0.000 2
# *-> 2 2.000 2 2.000 0
根据转移概率
获得'missing'的替代成本
sm <- seqsubm(sq, method='TRATE', with.missing=TRUE, miss.cost.fixed=FALSE)
round(sm,digits=3)
# A-> B-> C-> D-> *->
# A-> 0.000 2.000 2.000 2.000 1.703
# B-> 2.000 0.000 2.000 1.823 1.957
# C-> 2.000 2.000 0.000 2.000 1.957
# D-> 2.000 1.823 2.000 0.000 1.957
# *-> 1.703 1.957 1.957 1.957 0.000
使用后者sm
,我们得到序列之间的距离
dist.om <- seqdist(sq, method="OM", indel=1, sm=sm, with.missing=TRUE)
round(dist.om, digits=2)
# [,1] [,2] [,3] [,4] [,5] [,6] [,7]
# [1,] 0.00 22.87 21.91 18.41 6.41 17.00 17.03
# [2,] 22.87 0.00 13.76 11.56 19.91 19.87 22.57
# [3,] 21.91 13.76 0.00 14.25 18.96 18.91 21.57
# [4,] 18.41 11.56 14.25 0.00 13.70 15.70 18.14
# [5,] 6.41 19.91 18.96 13.70 0.00 15.70 16.62
# [6,] 17.00 19.87 18.91 15.70 15.70 0.00 16.70
# [7,] 17.03 22.57 21.57 18.14 16.62 16.70 0.00
当然,序列之间会很接近,因为它们共享许多缺失状态 (*)。因此,您可能只想保留元素缺失少于 10% 的序列。
2) 第二种解决方案是删除间隙,您在 seqdef
中就是这样做的。 (但是,请注意,这会改变对齐方式。)
## Here, we drop seq 7 that contains only missing values
sq <- seqdef(ex1[-7,1:13], left='DEL', gaps='DEL')
sq
# Sequence
# s1 A-A-A-A-A-A-A-A-A-A
# s2 D-D-D-B-B-B-B-B-B-B
# s3 D-D-D-D-D-D-D-D-D-D
# s4 A-A-B-B-B-B-D-D
# s5 A-A-A-A-A-A-A-A
# s6 C-C-C-C-C-C-C
sm <- seqsubm(sq, method='TRATE')
round(sm,digits=3)
# A-> B-> C-> D->
# A-> 0.000 1.944 2 2.000
# B-> 1.944 0.000 2 1.823
# C-> 2.000 2.000 0 2.000
# D-> 2.000 1.823 2 0.000
dist.om <- seqdist(sq, method="OM", indel=1, sm=sm)
round(dist.om, digits=2)
# [,1] [,2] [,3] [,4] [,5] [,6]
# [1,] 0.00 19.61 20.00 13.78 2.00 17
# [2,] 19.61 0.00 12.76 9.59 17.61 17
# [3,] 20.00 12.76 0.00 13.29 18.00 17
# [4,] 13.78 9.59 13.29 0.00 11.78 15
# [5,] 2.00 17.61 18.00 11.78 0.00 15
# [6,] 17.00 17.00 17.00 15.00 15.00 0
我想根据包含缺失的数据(即包含缺口的序列)TraMineR::seqdist()
对具有最佳匹配的序列进行聚类。
library(TraMineR)
data(ex1)
sum(is.na(ex1))
# [1] 38
sq <- seqdef(ex1[1:13])
sq
# Sequence
# s1 *-*-*-A-A-A-A-A-A-A-A-A-A
# s2 D-D-D-B-B-B-B-B-B-B
# s3 *-D-D-D-D-D-D-D-D-D-D
# s4 A-A-*-*-B-B-B-B-D-D
# s5 A-*-A-A-A-A-*-A-A-A
# s6 *-*-*-C-C-C-C-C-C-C
# s7 *-*-*-*-*-*-*-*-*-*-*-*-*
sm <- seqsubm(sq, method='TRATE')
round(sm,digits=3)
# A-> B-> C-> D->
# A-> 0 2.000 2 2.000
# B-> 2 0.000 2 1.823
# C-> 2 2.000 0 2.000
# D-> 2 1.823 2 0.000
当我运行seqdist()
dist.om <- seqdist(sq, method="OM", indel=1, sm=sm)
我正在收到
Error: 'with.missing' must be TRUE when 'seqdata' or 'refseq' contains missing values
但是当我设置选项时 with.missing=TRUE
我收到
[>] including missing values as an additional state
[>] 7 sequences with 5 distinct states
[>] checking 'sm' (one value for each state, triangle inequality)
Error: [!] size of substitution cost matrix must be 5x5
那么,当数据包含缺失(即序列包含间隙)时,我们如何使用 seqdist()
和 seqsubm()
的输出正确计算序列之间的差异?
注意:我不太确定这是否有意义。到目前为止,我只是排除了有缺失的观察结果,但由于我的数据,我因此失去了很多观察结果。因此,了解是否有这样的选项是值得的。
当你有间隙时,计算距离有不同的策略。
1) 第一种解决方案是将缺失状态视为附加状态。这就是当你设置 with.missing=TRUE
时 seqdist
所做的。在这种情况下,sm
矩阵应包含用缺失状态替换任何状态的成本。使用 seqsubm
您只需要为该函数也指定 with.missing=TRUE
。默认情况下,替代 'missing' 的替代成本设置为固定值 miss.cost
(默认为 2)。
sm <- seqsubm(sq, method='TRATE', with.missing=TRUE)
round(sm,digits=3)
# A-> B-> C-> D-> *->
# A-> 0 2.000 2 2.000 2
# B-> 2 0.000 2 1.823 2
# C-> 2 2.000 0 2.000 2
# D-> 2 1.823 2 0.000 2
# *-> 2 2.000 2 2.000 0
根据转移概率
获得'missing'的替代成本sm <- seqsubm(sq, method='TRATE', with.missing=TRUE, miss.cost.fixed=FALSE)
round(sm,digits=3)
# A-> B-> C-> D-> *->
# A-> 0.000 2.000 2.000 2.000 1.703
# B-> 2.000 0.000 2.000 1.823 1.957
# C-> 2.000 2.000 0.000 2.000 1.957
# D-> 2.000 1.823 2.000 0.000 1.957
# *-> 1.703 1.957 1.957 1.957 0.000
使用后者sm
,我们得到序列之间的距离
dist.om <- seqdist(sq, method="OM", indel=1, sm=sm, with.missing=TRUE)
round(dist.om, digits=2)
# [,1] [,2] [,3] [,4] [,5] [,6] [,7]
# [1,] 0.00 22.87 21.91 18.41 6.41 17.00 17.03
# [2,] 22.87 0.00 13.76 11.56 19.91 19.87 22.57
# [3,] 21.91 13.76 0.00 14.25 18.96 18.91 21.57
# [4,] 18.41 11.56 14.25 0.00 13.70 15.70 18.14
# [5,] 6.41 19.91 18.96 13.70 0.00 15.70 16.62
# [6,] 17.00 19.87 18.91 15.70 15.70 0.00 16.70
# [7,] 17.03 22.57 21.57 18.14 16.62 16.70 0.00
当然,序列之间会很接近,因为它们共享许多缺失状态 (*)。因此,您可能只想保留元素缺失少于 10% 的序列。
2) 第二种解决方案是删除间隙,您在 seqdef
中就是这样做的。 (但是,请注意,这会改变对齐方式。)
## Here, we drop seq 7 that contains only missing values
sq <- seqdef(ex1[-7,1:13], left='DEL', gaps='DEL')
sq
# Sequence
# s1 A-A-A-A-A-A-A-A-A-A
# s2 D-D-D-B-B-B-B-B-B-B
# s3 D-D-D-D-D-D-D-D-D-D
# s4 A-A-B-B-B-B-D-D
# s5 A-A-A-A-A-A-A-A
# s6 C-C-C-C-C-C-C
sm <- seqsubm(sq, method='TRATE')
round(sm,digits=3)
# A-> B-> C-> D->
# A-> 0.000 1.944 2 2.000
# B-> 1.944 0.000 2 1.823
# C-> 2.000 2.000 0 2.000
# D-> 2.000 1.823 2 0.000
dist.om <- seqdist(sq, method="OM", indel=1, sm=sm)
round(dist.om, digits=2)
# [,1] [,2] [,3] [,4] [,5] [,6]
# [1,] 0.00 19.61 20.00 13.78 2.00 17
# [2,] 19.61 0.00 12.76 9.59 17.61 17
# [3,] 20.00 12.76 0.00 13.29 18.00 17
# [4,] 13.78 9.59 13.29 0.00 11.78 15
# [5,] 2.00 17.61 18.00 11.78 0.00 15
# [6,] 17.00 17.00 17.00 15.00 15.00 0