使用机器学习根据与 Python 的相关性对文档进行分类 [关闭]答案

【问题标题】：Use machine learning to classify documents based on relevance with Python [closed]使用机器学习根据与 Python 的相关性对文档进行分类 [关闭]
【发布时间】：2018-09-19 11:18:10
【问题描述】：

我正在开发一个应用程序来搜索多个新闻来源的关键字，并返回按与关键字的相关性排序的链接数据库。然而，我已经碰壁了。是否有可能有一个训练集，其中有几篇文章被确认与某个关键字相关（并且有大量不同的关键字），当然还有一些被确认不相关，并训练该分类器处理关键字和文章没有经过训练的关键字？ 就像我有一组关于狗的相关文章、关于猫的相关文章、关于鱼的相关文章的训练集，然后在一篇关于建筑的文章中尝试使用该分类器，可以我理论上得到一个准确的答案？ Here's the link to my project if anyone is interested

【问题讨论】：

是的..理论上你可以
@RahulAgarwal 怎么样？有教程可以指点我吗？

标签： python tensorflow

【解决方案1】：

如果您希望您的系统提供您尚未预定义的标签，那么您可能应该考虑一种无监督的方法。谷歌使用聚类算法将他们的新闻文章分组为当天的主题，即它没有根据关键字列表进行训练。你为什么不试试 LDA 看看你能不能得到有意义的结果？这是一个可以提供帮助的python库。 https://radimrehurek.com/gensim/models/ldamodel.html#gensim.models.ldamodel.LdaModel

还要考虑您是需要标签还是只需要对文档进行分组。如果您只需要对文档进行分组，那么普通的聚类就可以了。

如果您有一些正在训练的标签，那么您可以采用混合方法。

【讨论】：