DirSource 导入文件问题

DirSource Import file issue

我一直在尝试导入文件

reuters <- Corpus(DirSource(directory = "E:\R Programs\Test\Reuteurs\reut2-000.xml", encoding = "UTF-8"), 
   readerControl = list(reader = readReut21578XMLasPlain))

但是我得到以下错误:

Error in DirSource(directory = "E:\R Programs\Test\Reuteurs\reut2-000.xml",  : 
  empty directory

我还检查了 Whosebug 中提供的其他解决方案,但它对我不起作用。我错过了什么吗?

但下面的代码有效:为什么 DirSource 方法对我不起作用?我错过了什么吗?

reuters <- Corpus(URISource("file://E:\R Programs\Test\Reuteurs\reut2-000.xml",encoding="UTF-8"), 
   readerControl = list(reader = readReut21578XMLasPlain))

参考 link 我提到了:

R: Got problems in reading text file

Using R for Text Mining Reuters-21578

R Error in trying to access local data

reut2-000.xml 可能是一个 文件,而不是一个目录?

将文件作为目录打开会导致错误。

我建议您使用 R 包 tm.corpus.Reuters21578 中经过预处理的路透社语料库(我已经在此处推荐:Using R for Text Mining Reuters-21578)。

install.packages("tm.corpus.Reuters21578", repos = "http://datacube.wu.ac.at")
library(tm.corpus.Reuters21578)
data(Reuters21578)

这些数据与原始路透社 xml 文件中的数据相同,但没有编码问题、缺少 xml 声明等问题

终于我找到了解决这个错误的方法:

words<-Corpus(VectorSource(fread(file,encoding = 'UTF-8',sep = ',',verbose = TRUE)))

希望这对您有所帮助