【问题标题】:Use machine learning to classify documents based on relevance with Python [closed]使用机器学习根据与 Python 的相关性对文档进行分类 [关闭]
【发布时间】:2018-09-19 11:18:10
【问题描述】:

我正在开发一个应用程序来搜索多个新闻来源的关键字,并返回按与关键字的相关性排序的链接数据库。然而,我已经碰壁了。是否有可能有一个训练集,其中有几篇文章被确认与某个关键字相关(并且有大量不同的关键字),当然还有一些被确认不相关,并训练该分类器处理关键字和文章没有经过训练的关键字? 就像我有一组关于狗的相关文章、关于猫的相关文章、关于鱼的相关文章的训练集,然后在一篇关于建筑的文章中尝试使用该分类器,可以我理论上得到一个准确的答案? Here's the link to my project if anyone is interested

【问题讨论】:

  • 是的..理论上你可以
  • @RahulAgarwal 怎么样?有教程可以指点我吗?

标签: python tensorflow


【解决方案1】:

如果您希望您的系统提供您尚未预定义的标签,那么您可能应该考虑一种无监督的方法。谷歌使用聚类算法将他们的新闻文章分组为当天的主题,即它没有根据关键字列表进行训练。你为什么不试试 LDA 看看你能不能得到有意义的结果?这是一个可以提供帮助的python库。 https://radimrehurek.com/gensim/models/ldamodel.html#gensim.models.ldamodel.LdaModel

还要考虑您是需要标签还是只需要对文档进行分组。如果您只需要对文档进行分组,那么普通的聚类就可以了。

如果您有一些正在训练的标签,那么您可以采用混合方法。

【讨论】:

    猜你喜欢
    • 2020-05-29
    • 1970-01-01
    • 2019-01-27
    • 2017-12-25
    • 2018-08-15
    • 2019-12-20
    • 1970-01-01
    • 1970-01-01
    • 2020-03-23
    相关资源
    最近更新 更多