【发布时间】:2016-04-14 06:25:07
【问题描述】:
我正在尝试在我的 R 语料库上实现 quanteda,但我得到:
Error in data.frame(texts = x, row.names = names(x), check.rows = TRUE, :
duplicate row.names: character(0)
我对此没有太多经验。这是数据集的下载:https://www.dropbox.com/s/ho5tm8lyv06jgxi/TwitterSelfDriveShrink.csv?dl=0
代码如下:
tweets = read.csv("TwitterSelfDriveShrink.csv", stringsAsFactors=FALSE)
corpus = Corpus(VectorSource(tweets$Tweet))
corpus = tm_map(corpus, tolower)
corpus = tm_map(corpus, PlainTextDocument)
corpus <- tm_map(corpus, removePunctuation)
corpus = tm_map(corpus, removeWords, c(stopwords("english")))
corpus = tm_map(corpus, stemDocument)
quanteda.corpus <- corpus(corpus)
【问题讨论】:
-
如果您提供可重现的示例,您将立即扩大可能的回答者池。此外,一旦得到答复,它只会使您受益。通过概括问题,您可以帮助未来的您和其他人。
-
已更新下载链接,希望对您有所帮助。
-
@gamelanguage,在你的方法中使用 tm 得到了同样的错误,但你不需要 tm,只需要 quanteda 和 stringsAsFactors = FALSE。
标签: r text analytics n-gram quanteda