将 text2vec dtm 写入文件(csv 或 svmlight)

Write a text2vec dtm to a file (csv or svmlight)

我今天遇到了 text2vec 包,它正是我解决特定问题所需要的。但是,我无法弄清楚如何将使用 text2vec 创建的 dtm 导出到某种输出文件。我的最终目标是使用 text2vec 在 R 中生成特征并将生成的矩阵导入 H2O 以进行进一步建模。 H2O 可以读取 CSV 或 SVMLight 格式。

我创建的第一个是 987753 x 8806 sparse Matrix of class "dgCMatrix", with 3625049 entries,所以它很大。无法使用 as.matrix() 将其写出到 CSV,因为它太大了。我以为我可以很容易地将它写成 SVMLight 格式,但一直找不到可用的库。任何人有任何其他选项来将此输出到我可以读入 H2O 的文件吗?

有几个包可以做到这一点。看看 https://github.com/Laurae2/sparsity - 恕我直言最有希望:

library(text2vec)
library(sparsity)
data("movie_review")
N = 5000
tokens = movie_review$review[1:N] %>% tolower %>% word_tokenizer
it = itoken(tokens, progressbar = T)
dtm = create_dtm(it, hash_vectorizer())
write.svmlight(dtm, labelVector = movie_review$sentiment, file = "dtm.svmlight")