【发布时间】:2012-11-10 13:58:49
【问题描述】:
Reddit API 提供任何给定帖子的得分信息,包括赞成票数、反对票数和总分。我想使用这些信息对故事标题进行一些分析,并最终分析故事链接到的内容(自我帖子、博客文章等),以尝试预测哪些帖子会受欢迎,哪些帖子会失败。
Reddit 的 API 可让您轻松访问任何给定 subreddit(包括 r/all)中得分最高的帖子,但没有一种简单的方法可以找到低分的帖子,尤其是考虑到有不同类型的低分.
例如,您可以有一个新的故事,它有 0 次上涨、0 次下跌和 0 分。这个故事是失败的吗?不必要。这只是新的。然而,由于 Reddit 的工作方式,一个故事可能有 0 次上涨、50 次下跌和 0 分。这篇文章很可能是可恶的、垃圾邮件或其他旨在攻击的内容。我认为我需要区分这两种类型的故事以获得更准确的表示。
我希望前 10% 和最低 10% 的故事得分明智,所以如果您知道一种方法来查找提交到子版块的故事总数,我很想听听!
查找低分报道的最佳方法是什么?我是否应该从头版开始并使用蛮力算法,检查每个故事的起伏和得分,直到我有足够的数据?我还需要考虑哪些其他变量?
【问题讨论】:
标签: python analytics reddit data-analysis