如何将一组 Unicode .text 转换为 ANSI 以在 R 中进行文本分析
How covert a set of Unicode .txt to ANSI for text analysis in R
我在 Windows 10 x64 上使用 R。我正在尝试将一组 txt 文件读入 R 以进行文本分析。我正在使用以下代码:
setwd(inputdir)
files <- DirSource(directory = inputdir, encoding ="UTF-8" )
docs<- VCorpus(x=files)
writeLines(as.character(docs[[2]]))
最后一行旨在显示文档 #2 的内容,此代码显示为空(以及集合中的所有其他文档)。我不确定为什么。我检查了 txt 文档的编码(打开,然后选择 "save as"),我的 txt 文件编码是 "Unicode." 当我手动将任何文件保存为 "ANSI" 时,writeLines(as.character(docs[[2]]))
给我适当的内容。我认为我应该将所有文件转换为 ANSI。在这方面,我想问一下如何在 R 中对 "inputdir" 中的所有 txt 文件执行此操作?
获取所有txt文件
files <- list.files(path=getwd(), pattern="*.txt", full.names=T, recursive=FALSE)
用于转换编码并覆盖它的循环
for(i in 1:length(files)){
input <- readLines(files[i])
converted_input <- iconv(input, from = file_encoding, to = file_encoding)
writeLines(converted_input,files[i])
}
可以通过iconvlist()
命令查看可能的编码
我在 Windows 10 x64 上使用 R。我正在尝试将一组 txt 文件读入 R 以进行文本分析。我正在使用以下代码:
setwd(inputdir)
files <- DirSource(directory = inputdir, encoding ="UTF-8" )
docs<- VCorpus(x=files)
writeLines(as.character(docs[[2]]))
最后一行旨在显示文档 #2 的内容,此代码显示为空(以及集合中的所有其他文档)。我不确定为什么。我检查了 txt 文档的编码(打开,然后选择 "save as"),我的 txt 文件编码是 "Unicode." 当我手动将任何文件保存为 "ANSI" 时,writeLines(as.character(docs[[2]]))
给我适当的内容。我认为我应该将所有文件转换为 ANSI。在这方面,我想问一下如何在 R 中对 "inputdir" 中的所有 txt 文件执行此操作?
获取所有txt文件
files <- list.files(path=getwd(), pattern="*.txt", full.names=T, recursive=FALSE)
用于转换编码并覆盖它的循环
for(i in 1:length(files)){
input <- readLines(files[i])
converted_input <- iconv(input, from = file_encoding, to = file_encoding)
writeLines(converted_input,files[i])
}
可以通过iconvlist()
命令查看可能的编码