使用 R 控制台从文档中删除不同的单词

Removing different words form a document using R console

我已设法检索到一个文本文件,但我想删除不同的词。我去了 read.table 并且不知道如何使用它来帮助我删除某些单词。我有 300 个单词,这些是其中的一些。如何使用 R 控制台删除所有这些词?我有两个文件,一个是 sk.text,它是一个完整的文档,另一个是 bash.txt,它只有单词,所以我想删除 sk.text 中与bash.text.

中给出的单词
 with
 within
 without
 work
 worked
 working
 works
 would

一个简单的方法是使用

gsub(paste0('\b',
            YOURVECTOROFWORDSTOREMOVE,
            '\b', collapse = '|'),'',YOURSTRING)

用单个 space.

替换向量中出现的被 end/beginning 个字符或白色 space 包围的单词

但如果您有很多这样的文件,您可能想查看 tm 包并使用语料库对象。在那里你可以删除你喜欢的单词

tm_map(YOURCORPUS, removeWords, YOURVECTOROFWORDSTOREMOVE)