如果文档中没有单词,我该如何标记文档?

How do I tag a document if a word is not present in it?

我正在对包含 2500 个文档的文本数据执行文本挖掘,并在文档中查找特定单词。

如果文档中不存在 'laceration' 这个词,我想标记该文档,并将输出作为不包含该词的文档列表。并且还想将输出保存在文本文件中。

我正在使用以下代码

library(qdapRegex)

grab2 <- rm_(pattern=S("@around_", 1, "laceration", 1), extract=TRUE)

grab2(l$Text)

我得到的示例输出

[[2164]]
[1] NA

[[2165]]
[1] NA

[[2166]]
[1] "laceration"

[[2167]]
[1] NA

[[2168]]
[1] NA

我想要的代码 return 只包含没有单词 'laceration' 的文档。并想将输出写入文件。

虽然您可以在 R 中执行此操作,但在命令行执行此操作会更有效(使用 Linux-like OS 或 CygWin if on Windows ):

grep -v "\blaceration\b" *.txt >ListOfNoLac

在 R 中,你可以这样做:

fileList <- list.files(".", "\.txt$")
hasLac <- sapply(fileList, function(x) length(grep("\blaceration\b", readLines(x))) > 0)
fileList[!hasLac]