使用 Quanteda 从文件名中读取 docvars

Question

quanteda 的文档说这是从文件夹导入文本文件并从文件名读取元数据的方法：

require(readtext)
mytf5 <- readtext("directory/*.txt",docvarsfrom="filenames", sep="-", docvarnames=c("Year", "President"))

我在目录中有这些文件：

[1] "1866-marx.txt"     "1910-weber.txt"    "1958-williams.txt"
[4] "1982-bell.txt"     "1998-lindgren.txt"

使用上面的代码时，我得到：

Error in file(f, ...) : unused argument (sep = "-")

尽管我在文件名中使用了“-”分隔符。

Answer 1

从技术上讲，您使用的是 readtext 包，而不是 quanteda，而我们即将提交 readtext 到 CRAN，它仍然只在 GitHub 上。我不确定您使用的是哪个版本，但是您的语法有误。这是正确的调用：

> packageVersion("readtext")
[1] ‘0.3’

?readtext::readtext

readtext(file, ignore_missing_files = FALSE, textfield = NULL,
  docvarsfrom = c("metadata", "filenames", "filepaths"), dvsep = "_",
  docvarnames = NULL, encoding = NULL,
  verbosity = getOption("readtext_verbosity"), ...)

所以：你需要的命令是：

require(readtext)
mytf5 <- readtext("directory/*.txt", docvarsfrom = "filenames", dvsep="-",
                  docvarnames = c("Year", "President"))

使用 Quanteda 从文件名中读取 docvars

Reading docvars from filenames with Quanteda

text

r

quanteda