【发布时间】:2020-05-19 03:59:43
【问题描述】:
我有一个包含推文的数据框。我正在努力删除停用词,因此我使用了:
stopWords <- stopwords("en")
tweets_sample$text<-removeWords(tweets_sample$text,stopWords)
反正我得到了
Error in gsub(sprintf("(*UCP)\\b(%s)\\b", paste(sort(words, decreasing = TRUE), :
input string 1 is invalid UTF-8
出现这种错误的原因是什么?
【问题讨论】:
-
tweets_sample
-
当我的输入包含
\uFFFFchar 时遇到了这个问题。