如何在 R 中使用 removeWords 解决 "Error in gsub"

How to resolve "Error in gsub" with removeWords in R

我有一个包含推文的数据框。我正在努力删除停用词,因此我使用了:

stopWords <- stopwords("en")
tweets_sample$text<-removeWords(tweets_sample$text,stopWords)

反正我得到了

Error in gsub(sprintf("(*UCP)\b(%s)\b", paste(sort(words, decreasing = TRUE),  : 
input string 1 is invalid UTF-8

什么会导致这种错误?

您的第一个字符串中似乎有无效的 UTF-8。 您可以使用 iconv 替换文本中任何不可转换的字节:

text <- "your text"
Encoding(te\xE7xt) <- "UTF-8"
iconv(text, "UTF-8", "UTF-8",sub='') 

"text"

看起来像是编码问题。尝试 Encoding(tweets_sample$text) <- "UTF-8",然后 removeWords 函数。