文档术语矩阵不会保留数字的小数位
Document Term Matrix will not maintain decimal places of numbers
在我更新我的 RStudio 版本之前,一切都运行良好。随着更新,'tm' 包中的文档术语矩阵发生了一些变化。我想创建一个 dtm,但带有数字。例如,如果我有一个包含一列的 .csv,如下所示:
x
1.01
11.21
123.35
212.11
我希望术语矩阵中的列名称如下所示:
1.01 11.21 123.35 212.11
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
但它看起来像这样:
123 212
0 0
0 0
1 0
0 1
这是曾经有效的代码:
corpus = Corpus(VectorSource(x))
dtm = DocumentTermMatrix(corpus)
dtm_df = as.data.frame(as.matrix(dtm))
提前致谢
来自 'tm' 软件包维护者 Ingo Feinerer:
这是曾经有效的代码:
语料库 = 语料库(VectorSource(x))
Try VCorpus() instead of Corpus().
dtm = DocumentTermMatrix(语料库)
dtm_df = as.data.frame(as.matrix(dtm))
That is highly inefficient (since as.matrix() generates a dense representation from the sparse term-document matrix).
此致,
英戈
在我更新我的 RStudio 版本之前,一切都运行良好。随着更新,'tm' 包中的文档术语矩阵发生了一些变化。我想创建一个 dtm,但带有数字。例如,如果我有一个包含一列的 .csv,如下所示:
x
1.01
11.21
123.35
212.11
我希望术语矩阵中的列名称如下所示:
1.01 11.21 123.35 212.11
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
但它看起来像这样:
123 212
0 0
0 0
1 0
0 1
这是曾经有效的代码:
corpus = Corpus(VectorSource(x))
dtm = DocumentTermMatrix(corpus)
dtm_df = as.data.frame(as.matrix(dtm))
提前致谢
来自 'tm' 软件包维护者 Ingo Feinerer:
这是曾经有效的代码:
语料库 = 语料库(VectorSource(x))
Try VCorpus() instead of Corpus().
dtm = DocumentTermMatrix(语料库) dtm_df = as.data.frame(as.matrix(dtm))
That is highly inefficient (since as.matrix() generates a dense representation from the sparse term-document matrix).
此致, 英戈