合并 quanteda 语料库时语料库源的 Docvar 指示器
Docvar indicator for corpus source when combining quanteda corpora
有什么方法可以在合并 quanteda 语料库(使用加号运算符)时自动创建一个指示变量来标记文档来自哪个源语料库?例如,假设您有两个语料库,corpus1 和 corpus2。您 运行 以下对象:
语料库 3 <-语料库 1 + 语料库 2
我想找到一些方法来创建一个新的 docvar 来指示 corpus3 中的每个文档来自哪个语料库。有什么想法吗?
目前没有自动方法,但最简单的方法是在添加语料库之前创建语料库标识符。
library("quanteda")
# Loading required package: quanteda
# Package version: 1.3.4
c1 <- corpus(c(d11 = "C1 Doc one.", d12 = "C1 Doc two."))
c2 <- corpus(c(d21 = "C2 Doc one.", d22 = "C2 Doc two.", d23 = "C2 Doc 3"))
docvars(c1, "corpusid") <- 1
docvars(c2, "corpusid") <- 2
cc <- c1 + c2
summary(cc)
# Corpus consisting of 5 documents:
#
# Text Types Tokens Sentences corpusid
# d11 4 4 1 1
# d12 4 4 1 1
# d21 4 4 1 2
# d22 4 4 1 2
# d23 3 3 1 2
#
# Source: Combination of corpuses c1 and c2
# Created: Sun Jul 29 09:37:28 2018
# Notes:
有什么方法可以在合并 quanteda 语料库(使用加号运算符)时自动创建一个指示变量来标记文档来自哪个源语料库?例如,假设您有两个语料库,corpus1 和 corpus2。您 运行 以下对象:
语料库 3 <-语料库 1 + 语料库 2
我想找到一些方法来创建一个新的 docvar 来指示 corpus3 中的每个文档来自哪个语料库。有什么想法吗?
目前没有自动方法,但最简单的方法是在添加语料库之前创建语料库标识符。
library("quanteda")
# Loading required package: quanteda
# Package version: 1.3.4
c1 <- corpus(c(d11 = "C1 Doc one.", d12 = "C1 Doc two."))
c2 <- corpus(c(d21 = "C2 Doc one.", d22 = "C2 Doc two.", d23 = "C2 Doc 3"))
docvars(c1, "corpusid") <- 1
docvars(c2, "corpusid") <- 2
cc <- c1 + c2
summary(cc)
# Corpus consisting of 5 documents:
#
# Text Types Tokens Sentences corpusid
# d11 4 4 1 1
# d12 4 4 1 1
# d21 4 4 1 2
# d22 4 4 1 2
# d23 3 3 1 2
#
# Source: Combination of corpuses c1 and c2
# Created: Sun Jul 29 09:37:28 2018
# Notes: