如何打印存储在 R 中的 tm 语料库中的单个文档的文本表示?

How to print textual representation of single documents stored in a tm corpus in R?

我使用的是 {tm} 包,然后使用

生成了一个语料库

corpus = Corpus(VectorSource(sample.words))

然后我想检查语料库中的内容,但它打印这个而不是它的文本:

> corpus
<<VCorpus>>
Metadata:  corpus specific: 0, document level (indexed): 0
Content:  documents: 3933

现在我找到了一些方法来研究 corpus,然后我开始想知道当输入一个对象时 R 打印的到底是什么?

> class(corpus)
[1] "VCorpus" "Corpus" 
> typeof(corpus)
[1] "list"

为什么它不像其他普通列表那样打印它的列和行?这与 class 属性有关吗?

我是 R 新手,不熟悉一些基本概念,感谢您的耐心等待!

tm 包的介绍文档说您可以使用,比如说,writeLines(as.character(mycorpus[[4]])) 来获取文档 4 的文本表示。

您也可以使用content(myCorpus[[23]])

要阅读介绍文档,请在 R 提示符下输入 browseVignettes(),然后在打开的浏览器 window 中搜索它。