使用 R 控制台从文档中删除不同的单词
Removing different words form a document using R console
我已设法检索到一个文本文件,但我想删除不同的词。我去了 read.table 并且不知道如何使用它来帮助我删除某些单词。我有 300 个单词,这些是其中的一些。如何使用 R 控制台删除所有这些词?我有两个文件,一个是 sk.text,它是一个完整的文档,另一个是 bash.txt,它只有单词,所以我想删除 sk.text 中与bash.text.
中给出的单词
with
within
without
work
worked
working
works
would
一个简单的方法是使用
gsub(paste0('\b',
YOURVECTOROFWORDSTOREMOVE,
'\b', collapse = '|'),'',YOURSTRING)
用单个 space.
替换向量中出现的被 end/beginning 个字符或白色 space 包围的单词
但如果您有很多这样的文件,您可能想查看 tm 包并使用语料库对象。在那里你可以删除你喜欢的单词
tm_map(YOURCORPUS, removeWords, YOURVECTOROFWORDSTOREMOVE)
我已设法检索到一个文本文件,但我想删除不同的词。我去了 read.table 并且不知道如何使用它来帮助我删除某些单词。我有 300 个单词,这些是其中的一些。如何使用 R 控制台删除所有这些词?我有两个文件,一个是 sk.text,它是一个完整的文档,另一个是 bash.txt,它只有单词,所以我想删除 sk.text 中与bash.text.
中给出的单词 with
within
without
work
worked
working
works
would
一个简单的方法是使用
gsub(paste0('\b',
YOURVECTOROFWORDSTOREMOVE,
'\b', collapse = '|'),'',YOURSTRING)
用单个 space.
替换向量中出现的被 end/beginning 个字符或白色 space 包围的单词但如果您有很多这样的文件,您可能想查看 tm 包并使用语料库对象。在那里你可以删除你喜欢的单词
tm_map(YOURCORPUS, removeWords, YOURVECTOROFWORDSTOREMOVE)