如何打印存储在 R 中的 tm 语料库中的单个文档的文本表示?
How to print textual representation of single documents stored in a tm corpus in R?
我使用的是 {tm} 包,然后使用
生成了一个语料库
corpus = Corpus(VectorSource(sample.words))
然后我想检查语料库中的内容,但它打印这个而不是它的文本:
> corpus
<<VCorpus>>
Metadata: corpus specific: 0, document level (indexed): 0
Content: documents: 3933
现在我找到了一些方法来研究 corpus
,然后我开始想知道当输入一个对象时 R 打印的到底是什么?
> class(corpus)
[1] "VCorpus" "Corpus"
> typeof(corpus)
[1] "list"
为什么它不像其他普通列表那样打印它的列和行?这与 class 属性有关吗?
我是 R 新手,不熟悉一些基本概念,感谢您的耐心等待!
tm
包的介绍文档说您可以使用,比如说,writeLines(as.character(mycorpus[[4]]))
来获取文档 4 的文本表示。
您也可以使用content(myCorpus[[23]])
。
要阅读介绍文档,请在 R 提示符下输入 browseVignettes()
,然后在打开的浏览器 window 中搜索它。
我使用的是 {tm} 包,然后使用
生成了一个语料库corpus = Corpus(VectorSource(sample.words))
然后我想检查语料库中的内容,但它打印这个而不是它的文本:
> corpus
<<VCorpus>>
Metadata: corpus specific: 0, document level (indexed): 0
Content: documents: 3933
现在我找到了一些方法来研究 corpus
,然后我开始想知道当输入一个对象时 R 打印的到底是什么?
> class(corpus)
[1] "VCorpus" "Corpus"
> typeof(corpus)
[1] "list"
为什么它不像其他普通列表那样打印它的列和行?这与 class 属性有关吗?
我是 R 新手,不熟悉一些基本概念,感谢您的耐心等待!
tm
包的介绍文档说您可以使用,比如说,writeLines(as.character(mycorpus[[4]]))
来获取文档 4 的文本表示。
您也可以使用content(myCorpus[[23]])
。
要阅读介绍文档,请在 R 提示符下输入 browseVignettes()
,然后在打开的浏览器 window 中搜索它。