如何将字符向量转换为 R 中 tm 包中 DocumentTermMatrix 函数的语料库输入？

Question

我是 tm 软件包的新手。我想使用 DocumentTermMatrix 函数创建 DT- 矩阵以进行进一步的文本挖掘分析，但我能够为该函数创建 propoer 输入。

到目前为止，我的数据输入格式是这样的字符向量，并尝试使用 as.VCorpus 函数，但它看起来不起作用。代码如下：

> x <- as.VCorpus(sekcja_link$slowa_kluczowe_2)
Error in UseMethod("as.VCorpus") : 
  no applicable method for 'as.VCorpus' applied to an object of class "character"
> head(sekcja_link$slowa_kluczowe_2)
[1] "mandat policja zima kara"                                                                                 
[2] "sprzedaż samochodów w 2014 rok wzrost sprzedaży utrata prawa jazda wyprzedzaÄ‡ trzeci poduszka powietrzny"
[3] "kobieta 40stce powinien ruszać walczyÄ‡ życie ewa minge kasia czaplejewicz fitness"                       
[4] "e booki książka elektroniczny papierowy czytnik amazon kindle książki rynek booków handel i usługi"       
[5] "gra monopoly warszawa miasto plebiscyt samorząd i administracja"                                          
[6] "rachunek za ogrzewaÄ‡ niższe koszt ogrzewaÄ‡ ciepło wiek dom mieszkaÄ‡ nieruchomości"                     
>

Answer 1

如果你有一个字符向量，你可以像这样使用VectorSource：

txt <- c("Hello to you.", "Blah me, too.")
library(tm)
corp <- Corpus(VectorSource(txt))
dtm <- DocumentTermMatrix(corp)
# inspect(dtm)
# <<DocumentTermMatrix (documents: 2, terms: 5)>>
#   Non-/sparse entries: 5/5
# Sparsity           : 50%
# Maximal term length: 5
# Weighting          : term frequency (tf)
# 
# Terms
# Docs blah hello me, too. you.
# 1    0     1   0    0    1
# 2    1     0   1    1    0

如何将字符向量转换为 R 中 tm 包中 DocumentTermMatrix 函数的语料库输入？

How to convert vector of characters to corpus input for the DocumentTermMatrix function from tm package in R?

r

tm