【发布时间】:2011-04-26 20:48:16
【问题描述】:
由于各种新闻网站上发布了大量新故事/类似新闻内容,我无法轻松管理 RSS 提要。对于世界新闻和商业新闻这样的主题,很多故事都是多余的,增加了读者整理已经阅读过哪些故事的负担。为了处理泛滥和冗余的双重问题,我需要开发一个代码来减少要阅读的项目数量,并使用重叠的信息来预测有趣的主题。
如果我能够像在 GOOGLE NEWS / StackOverflow 中一样将类似的新闻内容组合在一起并将其呈现给用户,那就更容易了。
【问题讨论】:
-
是否主题类别(体育、世界、娱乐、健康...)预先确定?换句话说,您现在已经如何对新闻项目进行分组了吗? (如果是,这是一个监督学习问题)还是由用户来指定有多少主题类别和哪些主题类别? (=> 无监督 => 更难)
标签: php rss cluster-analysis feed