使用监督机器学习 Python 将推文分类答案

【问题标题】：Classify tweets into categories with supervised machine learning Python使用监督机器学习 Python 将推文分类
【发布时间】：2018-09-25 13:20:39
【问题描述】：

我有大量推文，其中一小部分已手动分配到主题类别。这些类别用数字表示，从 1 到 4，每个数字下面有大约 20 条属于该类别的推文。例如：

Category     Tweets

   1         ...twenty tweets belonging to category one...

   2         ...twenty tweets belonging to category two...

   3         ...twenty tweets belonging to category three...

   4         ...twenty tweets belonging to category four...

我的目标是实现某种机器学习技术，特别是在 Python 中，它将能够将已经分类的推文及其类别作为算法的训练数据，然后使用它所学到的知识进行浏览数据集的其余部分，每个类别返回大约 100 条它认为大多数属于该类别的推文。

我查看了监督 LDA、标记 LDA 和 K 最近邻等算法，但我不明白这些算法将如何应用于我的任务。如果有人可以将我链接到一些资源，将不胜感激，因为我一直在为此烦恼！

【问题讨论】：

事实上，这个问题“太宽泛了”。我建议您检查用于文本分类的基本朴素贝叶斯，多项式模型是否符合您的要求，以此为基准，然后查看更复杂的模型，然后最终返回更具体的问题。

标签： python machine-learning twitter supervised-learning

【解决方案1】：

如果我正确理解了您的问题，您有一小部分标记数据，您希望在其上训练算法，然后希望在大量数据上使用该训练算法以获得每个类别的最佳 100 条推文。

如果是这种情况，逻辑回归会很有用，因为它对于文本分类非常成功。此外，它还会为您提供每条推文属于 4 个类别的概率

例如，tweet 1 结果将是这样的 [0.4,0.3,0.2,0.1]。这表明推文 1 属于类别 1。但是，您可以将这些概率存储在单独的列表中，然后对其进行排序以获得前 100 个。

如果您想使其可扩展，我建议您使用 pyspark 库，因为您已经熟悉 python。这是一个方便的教程

https://spark.apache.org/docs/latest/ml-classification-regression.html#logistic-regression

【讨论】：