合并 quanteda 语料库时语料库源的 Docvar 指示器

Question

有什么方法可以在合并 quanteda 语料库（使用加号运算符）时自动创建一个指示变量来标记文档来自哪个源语料库？例如，假设您有两个语料库，corpus1 和 corpus2。您运行以下对象：

语料库 3 <-语料库 1 + 语料库 2

我想找到一些方法来创建一个新的 docvar 来指示 corpus3 中的每个文档来自哪个语料库。有什么想法吗？

Answer 1

目前没有自动方法，但最简单的方法是在添加语料库之前创建语料库标识符。

library("quanteda")
# Loading required package: quanteda
# Package version: 1.3.4


c1 <- corpus(c(d11 = "C1 Doc one.", d12 = "C1 Doc two."))
c2 <- corpus(c(d21 = "C2 Doc one.", d22 = "C2 Doc two.", d23 = "C2 Doc 3"))

docvars(c1, "corpusid") <- 1
docvars(c2, "corpusid") <- 2

cc <- c1 + c2
summary(cc)
# Corpus consisting of 5 documents:
#     
#     Text Types Tokens Sentences corpusid
# d11     4      4         1        1
# d12     4      4         1        1
# d21     4      4         1        2
# d22     4      4         1        2
# d23     3      3         1        2
# 
# Source: Combination of corpuses c1 and c2
# Created: Sun Jul 29 09:37:28 2018
# Notes:

合并 quanteda 语料库时语料库源的 Docvar 指示器

Docvar indicator for corpus source when combining quanteda corpora

r

quanteda