如何通过 n-gram 对 R 中的 pdf 文件进行标记化
How to do tokenizing by n-gram for pdf file in R
我想用 R 中的 ngrams 标记一个 pdf 文档。
我试着按照这里的说明
在 https://www.tidytextmining.com/ngrams.html,
但卡在 unnest_tokens()
函数中。
library(tm)
library(dplyr)
library(tidytext)
library(tidyverse)
filedoc <- "Document2019.pdf"
cname <- file.path(filedoc)
docs <- Corpus(URISource(cname), readerControl=list(reader=readPDF, language = "en"))
docs_bigrams <- docs %>%
unnest_tokens(bigram, text, token = "ngrams", n = 2)
我不断收到此错误消息:
Error in UseMethod("unnest_tokens_") : no applicable method for 'unnest_tokens_' applied to an object of class "c('VCorpus', 'Corpus')"
在 运行 unnest_tokens 函数之前我需要做些什么吗?
谢谢。
我采纳@phiver 的建议,使用 tidy 函数,并在此处重新发布答案,这样这个帖子就可以 closed/answered。
"use the tidy function before unnest_tokens. Tidytext uses the tidy function to transform from tm objects to tibbles."
谢谢!
我想用 R 中的 ngrams 标记一个 pdf 文档。
我试着按照这里的说明
在 https://www.tidytextmining.com/ngrams.html,
但卡在 unnest_tokens()
函数中。
library(tm)
library(dplyr)
library(tidytext)
library(tidyverse)
filedoc <- "Document2019.pdf"
cname <- file.path(filedoc)
docs <- Corpus(URISource(cname), readerControl=list(reader=readPDF, language = "en"))
docs_bigrams <- docs %>%
unnest_tokens(bigram, text, token = "ngrams", n = 2)
我不断收到此错误消息:
Error in UseMethod("unnest_tokens_") : no applicable method for 'unnest_tokens_' applied to an object of class "c('VCorpus', 'Corpus')"
在 运行 unnest_tokens 函数之前我需要做些什么吗? 谢谢。
我采纳@phiver 的建议,使用 tidy 函数,并在此处重新发布答案,这样这个帖子就可以 closed/answered。
"use the tidy function before unnest_tokens. Tidytext uses the tidy function to transform from tm objects to tibbles."
谢谢!