文档术语矩阵不会保留数字的小数位

Document Term Matrix will not maintain decimal places of numbers

在我更新我的 RStudio 版本之前,一切都运行良好。随着更新,'tm' 包中的文档术语矩阵发生了一些变化。我想创建一个 dtm,但带有数字。例如,如果我有一个包含一列的 .csv,如下所示:

x
1.01
11.21
123.35
212.11

我希望术语矩阵中的列名称如下所示:

1.01 11.21 123.35 212.11
1    0     0      0
0    1     0      0
0    0     1      0
0    0     0      1

但它看起来像这样:

123 212
0   0
0   0
1   0
0   1

这是曾经有效的代码:

corpus = Corpus(VectorSource(x)) dtm = DocumentTermMatrix(corpus) dtm_df = as.data.frame(as.matrix(dtm))

提前致谢

来自 'tm' 软件包维护者 Ingo Feinerer:

这是曾经有效的代码:

语料库 = 语料库(VectorSource(x))

Try VCorpus() instead of Corpus().

dtm = DocumentTermMatrix(语料库) dtm_df = as.data.frame(as.matrix(dtm))

That is highly inefficient (since as.matrix() generates a dense representation from the sparse term-document matrix).

此致, 英戈