如何在 R 中使用 removeWords 解决 "Error in gsub"
How to resolve "Error in gsub" with removeWords in R
我有一个包含推文的数据框。我正在努力删除停用词,因此我使用了:
stopWords <- stopwords("en")
tweets_sample$text<-removeWords(tweets_sample$text,stopWords)
反正我得到了
Error in gsub(sprintf("(*UCP)\b(%s)\b", paste(sort(words, decreasing = TRUE), :
input string 1 is invalid UTF-8
什么会导致这种错误?
您的第一个字符串中似乎有无效的 UTF-8。
您可以使用 iconv
替换文本中任何不可转换的字节:
text <- "your text"
Encoding(te\xE7xt) <- "UTF-8"
iconv(text, "UTF-8", "UTF-8",sub='')
"text"
看起来像是编码问题。尝试 Encoding(tweets_sample$text) <- "UTF-8"
,然后 removeWords
函数。
我有一个包含推文的数据框。我正在努力删除停用词,因此我使用了:
stopWords <- stopwords("en")
tweets_sample$text<-removeWords(tweets_sample$text,stopWords)
反正我得到了
Error in gsub(sprintf("(*UCP)\b(%s)\b", paste(sort(words, decreasing = TRUE), :
input string 1 is invalid UTF-8
什么会导致这种错误?
您的第一个字符串中似乎有无效的 UTF-8。
您可以使用 iconv
替换文本中任何不可转换的字节:
text <- "your text"
Encoding(te\xE7xt) <- "UTF-8"
iconv(text, "UTF-8", "UTF-8",sub='')
"text"
看起来像是编码问题。尝试 Encoding(tweets_sample$text) <- "UTF-8"
,然后 removeWords
函数。