【发布时间】:2011-04-25 11:26:01
【问题描述】:
我正在做一个项目,我需要根据用户提交的文章的受欢迎程度(上周、上个月和去年)对用户提交的文章列表进行排序。
我一直在考虑这个问题,但我不是一个伟大的统计学家,所以我想我可以在这里得到一些意见。
以下是可用的变量:
- 文章最初发表的时间 [日期]
- 编辑推荐文章的时间 [日期](如果已推荐)
- 文章从用户那里获得的投票数(上周、上个月、去年总计)
- 文章被查看的次数(上周、上个月、去年总计)
- 用户下载文章的次数(总计、上周、上个月、去年)
- 对文章的评论(总计、上周、上个月、去年)
- 用户将文章保存到其阅读列表的次数(总计、上周、上个月、去年)
- 文章出现在“我们所能提供的最佳”(社论)列表中的次数(总计、上周、上个月、去年)
- 文章被称为“本周文章”的时间 [日期](如果有的话)
现在我正在对每个变量进行加权,然后除以它被读取的次数。这几乎是我在阅读Weighted Means 后所能想到的。我最大的问题是有些用户文章总是在热门列表的顶部。可能是因为作者在“作弊”。
我正在考虑强调文章相对较新的重要性,但我不想仅仅因为它们有点旧而“惩罚”真正流行的文章。
有比我更擅长统计的人愿意帮助我吗?
谢谢!
【问题讨论】:
-
在您了解可疑文章是如何被撞到之前,您无法制定对策。
-
当然,我知道。由于无法确定用户之前是否已阅读、下载、投票或评论过该文章(匿名用户允许执行上述所有操作),因此总会有一些坏种子在系统中进行游戏。但是,我相信确定文章受欢迎程度的更好算法可能有助于缓解这个问题。我也不想让编辑的东西太高,让用户觉得他们在某种程度上不受控制。我只是要求一些输入:)
-
难道没有机会根据“注册用户”/“匿名用户”进行权衡吗?在这样的评分中,我会给注册用户 cmets、投票、下载等更多的权重。然后,您已经带走了很大一部分可能的游戏。有关寻找作弊者的其他一些统计学家说明,请参阅我的回答 - 或在 stats.stackexchange.com 再次询问。
标签: algorithm math sorting statistics