使用 R 中的 'tm' 库将元数据添加到 VectorSource 语料库
Add metadata to VectorSource corpus using 'tm' library in R
我有一个 csv 文件,我正在尝试将其转换为语料库以便稍后使用 tm_map 并应用一些聚类。
我读了文件
data <- read.csv("data.csv", header = TRUE, sep = ",",stringsAsFactors = FALSE)
把我需要的变成语料库
corp <- Corpus(VectorSource(data$text))
这是元数据的结果
> meta(corp[[1]])
author : character(0)
datetimestamp: 2019-09-20 20:48:45
description : character(0)
heading : character(0)
id : 1
language : en
origin : character(0)
然后我尝试添加作者信息,这样我就可以在之后添加日期和标题,就像这样
> for(i in 1:length(corp)) {
+ corp[[i]]$meta$author == data$author[i]
+ }
但我不断得到这个
> abstract[[1]]$meta$author
character(0)
> meta(abstract[[1]], tag = 'author')
character(0)
当
> data$author[1]
[1] "Juan Vásquez Córdoba"
如何将正确的元数据信息添加到我的语料库?
我找到答案,对象语料库必须是这样的:
corp <- VCorpus(VectorSource(data$text))
有了 V 一切都会好起来
我有一个 csv 文件,我正在尝试将其转换为语料库以便稍后使用 tm_map 并应用一些聚类。
我读了文件
data <- read.csv("data.csv", header = TRUE, sep = ",",stringsAsFactors = FALSE)
把我需要的变成语料库
corp <- Corpus(VectorSource(data$text))
这是元数据的结果
> meta(corp[[1]])
author : character(0)
datetimestamp: 2019-09-20 20:48:45
description : character(0)
heading : character(0)
id : 1
language : en
origin : character(0)
然后我尝试添加作者信息,这样我就可以在之后添加日期和标题,就像这样
> for(i in 1:length(corp)) {
+ corp[[i]]$meta$author == data$author[i]
+ }
但我不断得到这个
> abstract[[1]]$meta$author
character(0)
> meta(abstract[[1]], tag = 'author')
character(0)
当
> data$author[1]
[1] "Juan Vásquez Córdoba"
如何将正确的元数据信息添加到我的语料库?
我找到答案,对象语料库必须是这样的:
corp <- VCorpus(VectorSource(data$text))
有了 V 一切都会好起来