【发布时间】:2017-06-21 07:53:47
【问题描述】:
我有一些用户聊天数据,分类成各种类别,问题是算法生成的类别很多,请看下面的例子:
Message | Category
I want to play cricket | Play cricket
I wish to watch cricket | Watch cricket
I want to play cricket outside | Play cricket outside
如您所见,类别(本质上是短语)是从文本本身中提取的, 根据我的数据,有 10,000 条消息,大约有 4,500 个不同的类别。 在这种情况下,是否有任何合适的算法可以为我提供良好的预测准确性。
【问题讨论】:
-
都是这样的例子吗? (即:类别大多是“提取自”或包含在消息中)。
-
是的,它们是从文本本身中提取的,有什么特定的算法吗?
标签: machine-learning nlp regression svm naivebayes