【发布时间】:2018-09-25 13:20:39
【问题描述】:
我有大量推文,其中一小部分已手动分配到主题类别。这些类别用数字表示,从 1 到 4,每个数字下面有大约 20 条属于该类别的推文。例如:
Category Tweets
1 ...twenty tweets belonging to category one...
2 ...twenty tweets belonging to category two...
3 ...twenty tweets belonging to category three...
4 ...twenty tweets belonging to category four...
我的目标是实现某种机器学习技术,特别是在 Python 中,它将能够将已经分类的推文及其类别作为算法的训练数据,然后使用它所学到的知识进行浏览数据集的其余部分,每个类别返回大约 100 条它认为大多数属于该类别的推文。
我查看了监督 LDA、标记 LDA 和 K 最近邻等算法,但我不明白这些算法将如何应用于我的任务。如果有人可以将我链接到一些资源,将不胜感激,因为我一直在为此烦恼!
【问题讨论】:
-
事实上,这个问题“太宽泛了”。我建议您检查用于文本分类的基本朴素贝叶斯,多项式模型是否符合您的要求,以此为基准,然后查看更复杂的模型,然后最终返回更具体的问题。
标签: python machine-learning twitter supervised-learning