有没有一种简单的方法可以将令牌对象重塑为 quanteda 中的文档?
Is there a simple way to reshape a token object to documents in quanteda?
我正在尝试清理一些文本数据,并且在标记化之后,例如删除标点符号,我想将令牌对象转换为 vector/dataframe/corpus.
我目前的做法是:
library(quanteda)
library(dplyr)
raw <- c("This is text #1.", "And a second document...")
tokens <- raw %>% tokens(remove_punct = T)
docs <- lapply(tokens, toString) %>% gsub(pattern = ",", replacement = "")
是否有更“quanteda”或至少更简单的方法来做到这一点?
这就是我的做法,它将文档名称作为元素名称保留在输出向量中。 (但如果您不想保留它们,可以添加 USE.NAMES = FALSE
。)
> sapply(tokens, function(x) paste(as.character(x), collapse = " "))
text1 text2
"This is text #1" "And a second document"
这里不需要library(dplyr)
。
我正在尝试清理一些文本数据,并且在标记化之后,例如删除标点符号,我想将令牌对象转换为 vector/dataframe/corpus.
我目前的做法是:
library(quanteda)
library(dplyr)
raw <- c("This is text #1.", "And a second document...")
tokens <- raw %>% tokens(remove_punct = T)
docs <- lapply(tokens, toString) %>% gsub(pattern = ",", replacement = "")
是否有更“quanteda”或至少更简单的方法来做到这一点?
这就是我的做法,它将文档名称作为元素名称保留在输出向量中。 (但如果您不想保留它们,可以添加 USE.NAMES = FALSE
。)
> sapply(tokens, function(x) paste(as.character(x), collapse = " "))
text1 text2
"This is text #1" "And a second document"
这里不需要library(dplyr)
。