【发布时间】:2014-01-29 09:19:05
【问题描述】:
Twitter 在 API 上返回搜索结果时,每个“页面”仅返回 100 条推文。他们在返回的search_metadata 中提供了max_id 和since_id,可用作获取较早/较晚推文的参数。
Twython 3.1.2 文档表明这种模式是搜索的“旧方式”:
results = twitter.search(q="xbox",count=423,max_id=421482533256044543)
for tweet in results['statuses']:
... do something
这是“new way”:
results = twitter.cursor(t.search,q='xbox',count=375)
for tweet in results:
... do something
当我执行后者时,它似乎会无休止地迭代相同的搜索结果。我正在尝试将它们推送到 CSV 文件,但它会推送大量重复项。
使用 Twython 搜索大量推文并遍历一组独特结果的正确方法是什么?
编辑:这里的另一个问题是,当我尝试使用生成器 (for tweet in results:) 进行迭代时,它会反复循环,不会停止。啊——这是个bug……https://github.com/ryanmcgrath/twython/issues/300
【问题讨论】: