语料库对象缺少文本
Corpus object missing text
使用 R 中的 'tm' 库
应用此代码时:
abstract <- VectorSource(data$Abstract)
它有效并给出了这个结果:
[1] Accurate text...
[2] Accurate text...
[3] Accurate text...
然后我将它变成一个 Corpus 对象,这样我就可以对其进行处理以进一步应用一些聚类分析。
abstract <- tm::Corpus(tm::VectorSource(data$Abstract))
在检查原始数据时,我发现将其转换为数据框时将行保存为 NULL:
dataframe <- data.frame(text=unlist(sapply(abstract, `[`, "content")),
stringsAsFactors=F)
text
1 NA
2 NA
3 NA
4 NA
5 NA
6 NA
7 NA
8 NA
Showing 1 to 8 of 23,600 entries, 1 total columns
所以我不知道如何将文本特别转换为语料库。
我将以此来回答我自己的问题:
writeLines(as.character(abstract[[1]]))
content(abstract[[1]])
但仍然不知道如何获得完整的专栏作为结果。
使用 R 中的 'tm' 库
应用此代码时:
abstract <- VectorSource(data$Abstract)
它有效并给出了这个结果:
[1] Accurate text...
[2] Accurate text...
[3] Accurate text...
然后我将它变成一个 Corpus 对象,这样我就可以对其进行处理以进一步应用一些聚类分析。
abstract <- tm::Corpus(tm::VectorSource(data$Abstract))
在检查原始数据时,我发现将其转换为数据框时将行保存为 NULL:
dataframe <- data.frame(text=unlist(sapply(abstract, `[`, "content")),
stringsAsFactors=F)
text
1 NA
2 NA
3 NA
4 NA
5 NA
6 NA
7 NA
8 NA
Showing 1 to 8 of 23,600 entries, 1 total columns
所以我不知道如何将文本特别转换为语料库。
我将以此来回答我自己的问题:
writeLines(as.character(abstract[[1]]))
content(abstract[[1]])
但仍然不知道如何获得完整的专栏作为结果。