使用 R 在语料库中搜索单词

Searching for words in a corpus with R

我正在尝试使用 R 在语料库中搜索单词字符串。grep 中是否允许使用析取语句,例如 grep("a" 或 "b" 或 "c".. .)?如果是这样,一旦我有了那个子语料库,我该如何进一步完善它以只包含那些至少有两个原始条件标记的例子?

是的,竖线 |grep 中用作或运算符。您可以通过 运行 ?regex 在 R 中查找正则表达式。

所以,举个例子:

grep("ape|bass|cat", c("monkey", "bass", "catfish"))
[1] 2 3

还提供 grepgrepl 和该系列函数的文档。 stringr 包提供了处理文本的附加工具。