【问题标题】:Classify tweets into categories with supervised machine learning Python使用监督机器学习 Python 将推文分类
【发布时间】:2018-09-25 13:20:39
【问题描述】:

我有大量推文,其中一小部分已手动分配到主题类别。这些类别用数字表示,从 1 到 4,每个数字下面有大约 20 条属于该类别的推文。例如:

Category     Tweets

   1         ...twenty tweets belonging to category one...

   2         ...twenty tweets belonging to category two...

   3         ...twenty tweets belonging to category three...

   4         ...twenty tweets belonging to category four...

我的目标是实现某种机器学习技术,特别是在 Python 中,它将能够将已经分类的推文及其类别作为算法的训练数据,然后使用它所学到的知识进行浏览数据集的其余部分,每个类别返回大约 100 条它认为大多数属于该类别的推文。

我查看了监督 LDA、标记 LDA 和 K 最近邻等算法,但我不明白这些算法将如何应用于我的任务。如果有人可以将我链接到一些资源,将不胜感激,因为我一直在为此烦恼!

【问题讨论】:

  • 事实上,这个问题“太宽泛了”。我建议您检查用于文本分类的基本朴素贝叶斯,多项式模型是否符合您的要求,以此为基准,然后查看更复杂的模型,然后最终返回更具体的问题。

标签: python machine-learning twitter supervised-learning


【解决方案1】:

如果我正确理解了您的问题,您有一小部分标记数据,您希望在其上训练算法,然后希望在大量数据上使用该训练算法以获得每个类别的最佳 100 条推文。

如果是这种情况,逻辑回归会很有用,因为它对于文本分类非常成功。此外,它还会为您提供每条推文属于 4 个类别的概率

例如,tweet 1 结果将是这样的 [0.4,0.3,0.2,0.1]。这表明推文 1 属于类别 1。但是,您可以将这些概率存储在单独的列表中,然后对其进行排序以获得前 100 个。

如果您想使其可扩展,我建议您使用 pyspark 库,因为您已经熟悉 python。这是一个方便的教程

https://spark.apache.org/docs/latest/ml-classification-regression.html#logistic-regression

【讨论】:

    猜你喜欢
    • 2016-05-28
    • 2021-03-04
    • 2019-06-04
    • 1970-01-01
    • 2017-02-21
    • 2017-08-21
    • 1970-01-01
    • 2013-11-07
    • 2014-04-20
    相关资源
    最近更新 更多