使用 Quanteda 从文件名中读取 docvars
Reading docvars from filenames with Quanteda
quanteda 的文档说这是从文件夹导入文本文件并从文件名读取元数据的方法:
require(readtext)
mytf5 <- readtext("directory/*.txt",docvarsfrom="filenames", sep="-", docvarnames=c("Year", "President"))
我在目录中有这些文件:
[1] "1866-marx.txt" "1910-weber.txt" "1958-williams.txt"
[4] "1982-bell.txt" "1998-lindgren.txt"
使用上面的代码时,我得到:
Error in file(f, ...) : unused argument (sep = "-")
尽管我在文件名中使用了“-”分隔符。
从技术上讲,您使用的是 readtext 包,而不是 quanteda,而我们即将提交 readtext 到 CRAN,它仍然只在 GitHub 上。我不确定您使用的是哪个版本,但是您的语法有误。这是正确的调用:
> packageVersion("readtext")
[1] ‘0.3’
?readtext::readtext
readtext(file, ignore_missing_files = FALSE, textfield = NULL,
docvarsfrom = c("metadata", "filenames", "filepaths"), dvsep = "_",
docvarnames = NULL, encoding = NULL,
verbosity = getOption("readtext_verbosity"), ...)
所以:你需要的命令是:
require(readtext)
mytf5 <- readtext("directory/*.txt", docvarsfrom = "filenames", dvsep="-",
docvarnames = c("Year", "President"))
quanteda 的文档说这是从文件夹导入文本文件并从文件名读取元数据的方法:
require(readtext)
mytf5 <- readtext("directory/*.txt",docvarsfrom="filenames", sep="-", docvarnames=c("Year", "President"))
我在目录中有这些文件:
[1] "1866-marx.txt" "1910-weber.txt" "1958-williams.txt"
[4] "1982-bell.txt" "1998-lindgren.txt"
使用上面的代码时,我得到:
Error in file(f, ...) : unused argument (sep = "-")
尽管我在文件名中使用了“-”分隔符。
从技术上讲,您使用的是 readtext 包,而不是 quanteda,而我们即将提交 readtext 到 CRAN,它仍然只在 GitHub 上。我不确定您使用的是哪个版本,但是您的语法有误。这是正确的调用:
> packageVersion("readtext")
[1] ‘0.3’
?readtext::readtext
readtext(file, ignore_missing_files = FALSE, textfield = NULL,
docvarsfrom = c("metadata", "filenames", "filepaths"), dvsep = "_",
docvarnames = NULL, encoding = NULL,
verbosity = getOption("readtext_verbosity"), ...)
所以:你需要的命令是:
require(readtext)
mytf5 <- readtext("directory/*.txt", docvarsfrom = "filenames", dvsep="-",
docvarnames = c("Year", "President"))