在Quanteda中选择两个不连续的文件组成一个子语料库

Question

我希望得到有关选择两个或多个非连续文件以形成子语料库的建议。此代码选择 1 个文件：testcorpus <- texts (txtdata)[2]

如果我想将文件 1 和 25 组合成一个语料库，我该怎么做：

我尝试修改网上找到的代码，结果如下：

> my_corpus1 <- corpus(txtdata)[1] 
> my_corpus2 <- corpus(txtdata)[25] 
> my_corpus3 <- ( my_corpus1 + my_corpus2)
Error in my_corpus1 + my_corpus2 : 
  non-numeric argument to binary operator

>  xx <- corpus(txtdata)[1]  + corpus(txtdata)[25] 
Error in corpus(txtdata)[1] + corpus(txtdata)[25] : 
  non-numeric argument to binary operator

> my_corpus3 <-c( my_corpus1 + my_corpus2)
Error in my_corpus1 + my_corpus2 : 
  non-numeric argument to binary operator

如有任何建议，我们将不胜感激，

鲍勃

Answer 1

我会这样做：

library("quanteda")
## Package version: 1.4.1
## Parallel computing: 2 of 12 threads used.
## See https://quanteda.io for tutorials and examples.

corpus_subset(
  data_corpus_inaugural,
  seq_len(ndoc(data_corpus_inaugural)) %in% c(1, 25)
)
## Corpus consisting of 2 documents and 3 docvars.

此处的 subset 参数返回一个逻辑向量，其中第一个和第 25 个元素为真，其余元素为假，它将这些文档选择到您的子语料库中。

在Quanteda中选择两个不连续的文件组成一个子语料库

Selecting two non-contiguous files to form a sub-corpus in Quanteda

r

subset

corpus

quanteda