【发布时间】:2016-06-16 22:28:07
【问题描述】:
我正在尝试使用 twitteR 包来抓取一系列公共 Twitter 个人资料,然后将这些推文收集到数据库中。我遇到的问题是 API 似乎没有收集可用推文的全部。
这是我的代码:
library(RColorBrewer)
library(NLP)
library(twitteR)
library(foreign)
library(wordcloud)
library(tm)
library(base64enc)
library(httr)
access_token<-"" #not including these, but the oauth works for me
access_secret<-""
consumer_key<-""
consumer_secret<-""
###Scrapes Twitter Account
setup_twitter_oauth(consumer_key, consumer_secret, access_token, access_secret)
set.seed(123)
user.tweets<-userTimeline('@HillaryClinton', n=3200)
df<-twListToDF(user.tweets)
此代码从希拉里克林顿的推特页面抓取 340 条推文。但她有超过 8,000 条推文,所以我很困惑为什么它只抓取这些。我查看了最早推文的日期,是今年 4 月 27 日。这是 API 只收集到那个日期的问题吗?
我不认为 那 是这种情况,因为我也在朋友的 Twitter 个人资料中使用了此代码。这仅收集了他 451 条推文中的 106 条,但它一直追溯到 2013 年。但在这种情况下,它跳过了他撰写的一些推文(它们不是转发)。
我的代码中是否缺少某些内容,我缺少的 userTimeline 函数是否存在限制?
谢谢。
【问题讨论】: