DirSource 导入文件问题
DirSource Import file issue
我一直在尝试导入文件
reuters <- Corpus(DirSource(directory = "E:\R Programs\Test\Reuteurs\reut2-000.xml", encoding = "UTF-8"),
readerControl = list(reader = readReut21578XMLasPlain))
但是我得到以下错误:
Error in DirSource(directory = "E:\R Programs\Test\Reuteurs\reut2-000.xml", :
empty directory
我还检查了 Whosebug 中提供的其他解决方案,但它对我不起作用。我错过了什么吗?
但下面的代码有效:为什么 DirSource 方法对我不起作用?我错过了什么吗?
reuters <- Corpus(URISource("file://E:\R Programs\Test\Reuteurs\reut2-000.xml",encoding="UTF-8"),
readerControl = list(reader = readReut21578XMLasPlain))
参考 link 我提到了:
R: Got problems in reading text file
Using R for Text Mining Reuters-21578
R Error in trying to access local data
reut2-000.xml
可能是一个 文件,而不是一个目录?
将文件作为目录打开会导致错误。
我建议您使用 R 包 tm.corpus.Reuters21578
中经过预处理的路透社语料库(我已经在此处推荐:Using R for Text Mining Reuters-21578)。
install.packages("tm.corpus.Reuters21578", repos = "http://datacube.wu.ac.at")
library(tm.corpus.Reuters21578)
data(Reuters21578)
这些数据与原始路透社 xml 文件中的数据相同,但没有编码问题、缺少 xml 声明等问题
终于我找到了解决这个错误的方法:
words<-Corpus(VectorSource(fread(file,encoding = 'UTF-8',sep = ',',verbose = TRUE)))
希望这对您有所帮助
我一直在尝试导入文件
reuters <- Corpus(DirSource(directory = "E:\R Programs\Test\Reuteurs\reut2-000.xml", encoding = "UTF-8"),
readerControl = list(reader = readReut21578XMLasPlain))
但是我得到以下错误:
Error in DirSource(directory = "E:\R Programs\Test\Reuteurs\reut2-000.xml", :
empty directory
我还检查了 Whosebug 中提供的其他解决方案,但它对我不起作用。我错过了什么吗?
但下面的代码有效:为什么 DirSource 方法对我不起作用?我错过了什么吗?
reuters <- Corpus(URISource("file://E:\R Programs\Test\Reuteurs\reut2-000.xml",encoding="UTF-8"),
readerControl = list(reader = readReut21578XMLasPlain))
参考 link 我提到了:
R: Got problems in reading text file
Using R for Text Mining Reuters-21578
R Error in trying to access local data
reut2-000.xml
可能是一个 文件,而不是一个目录?
将文件作为目录打开会导致错误。
我建议您使用 R 包 tm.corpus.Reuters21578
中经过预处理的路透社语料库(我已经在此处推荐:Using R for Text Mining Reuters-21578)。
install.packages("tm.corpus.Reuters21578", repos = "http://datacube.wu.ac.at")
library(tm.corpus.Reuters21578)
data(Reuters21578)
这些数据与原始路透社 xml 文件中的数据相同,但没有编码问题、缺少 xml 声明等问题
终于我找到了解决这个错误的方法:
words<-Corpus(VectorSource(fread(file,encoding = 'UTF-8',sep = ',',verbose = TRUE)))
希望这对您有所帮助