【问题标题】:Bayesian filtering for forum posts论坛帖子的贝叶斯过滤
【发布时间】:2011-01-17 19:08:21
【问题描述】:

有没有人使用贝叶斯过滤器让论坛成员对帖子进行分类,所以随着时间的推移,论坛只显示有趣的帖子?贝叶斯过滤器似乎可以很好地检测垃圾邮件。实施贝叶斯过滤器是否是为用户过滤论坛帖子的可行方法?

【问题讨论】:

    标签: filter classification ranking bayesian forum


    【解决方案1】:

    协同过滤不是更好吗?

    【讨论】:

    • 协同过滤在 SO 之类的论坛上工作得相当好,对 Slashdot 来说效果不佳,但它也需要论坛用户的大量关注。我认为基于社区和自动过滤之间的某种混合是可取的并且具有相当大的潜力,但有效地实现它也可能是一个挑战。
    【解决方案2】:

    尝试通过贝叶斯分类器或任何其他自动分类系统对有趣/好的论坛帖子进行分类的困难在于,帖子的单词和/或单词结构与其相对价值或效用之间可能缺乏相关性。

    垃圾邮件过滤器之所以起作用,主要是因为词的选择和结构总体上是不寻常的:垃圾邮件发送者试图宣传特定的产品、服务等。虽然垃圾邮件发送者可以尝试增加通过各种技术很难做到这一点。

    这样的词/结构模式不太可能存在于好与坏的论坛帖子中。但是,还有另一种可能有用的重构问题的方法:

    1. 允许用户将帖子分类为好帖子或坏帖子,或者按照您的描述对帖子进行排名。
    2. 使用贝叶斯分类器或其他一些统计推断方法来识别与整个社区的排名行为相关性最高的论坛用户,即具有最佳品味且良好的用户整个社区如何看待内容的预测指标。
    3. 使用第 2 步中确定的良好预测用户池中的论坛帖子排名来过滤论坛帖子。这需要一个或多个这样的用户在某个时间点对新内容进行实际排名,因此这个池需要有一定的规模并包括常规用户,这样一个过滤系统才能发挥作用。
    4. 此分类器系统需要定期重建,因为用户社区可能是动态的、具有不断变化的兴趣等。

    我提出的方法对您的问题的实际效果在很大程度上取决于论坛的性质、用户对内容进行排名的意愿以及他们对所发布内容的价值的看法有多少共同点内容。此外,用户社区的整体规模可能是一个因素:如果它太小,可能没有足够的数据可以使用;如果太大,您可能会在针对排名数据运行分类器推理方法时遇到计算缩放问题。

    【讨论】:

      猜你喜欢
      • 2015-08-24
      • 1970-01-01
      • 2010-10-05
      • 2014-05-08
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2010-09-26
      相关资源
      最近更新 更多