如何打印存储在 R 中的 tm 语料库中的单个文档的文本表示？

Question

我使用的是 {tm} 包，然后使用

生成了一个语料库

corpus = Corpus(VectorSource(sample.words))

然后我想检查语料库中的内容，但它打印这个而不是它的文本：

> corpus
<<VCorpus>>
Metadata:  corpus specific: 0, document level (indexed): 0
Content:  documents: 3933

现在我找到了一些方法来研究 corpus，然后我开始想知道当输入一个对象时 R 打印的到底是什么？

> class(corpus)
[1] "VCorpus" "Corpus" 
> typeof(corpus)
[1] "list"

为什么它不像其他普通列表那样打印它的列和行？这与 class 属性有关吗？

我是 R 新手，不熟悉一些基本概念，感谢您的耐心等待！

Answer 1

tm 包的介绍文档说您可以使用，比如说，writeLines(as.character(mycorpus[[4]])) 来获取文档 4 的文本表示。

您也可以使用content(myCorpus[[23]])。

要阅读介绍文档，请在 R 提示符下输入 browseVignettes()，然后在打开的浏览器 window 中搜索它。

How to print textual representation of single documents stored in a tm corpus in R?