【问题标题】:Classification of Text into multiple categories [closed]将文本分类为多个类别[关闭]
【发布时间】:2017-08-01 07:55:35
【问题描述】:

我正在做一个需要确定一个词是否是水果的项目。我尝试了几种方法,但对任何结果都不满意。有什么建议吗?

我的训练集是这样的

  • 输入:苹果是一种水果。 输出:苹果。
  • 输入:番石榴也是一种水果输出:番石榴。
  • 输入:菠萝是一种时令水果输出:菠萝。

运行外部训练数据时的示例:

  • 输入:我喜欢所有的水果,但最喜欢的是番石榴和苹果。 输出:番石榴、苹果

【问题讨论】:

  • 到目前为止您尝试过什么。我假设您只想要一个现成的解决方案。请改写您的问题
  • 我到目前为止使用 scikit learn SVM 所做的工作对于单标签分类效果很好,但对于多标签它的性能一点也不好。我想要一些关于如何解决我的问题的想法。 @ArpitSolanki
  • 您是否只需要从字符串中提取信息(i._e_.水果名称)?如果是这样,多标签分类器可能是多余的。
  • SO 在这里帮助您编写代码,但 SO 不是在这里为您编写代码。

标签: machine-learning nlp


【解决方案1】:

此任务称为命名实体识别。您可以在on Wikipedia 阅读有关它的信息。

斯坦福大学的 CoreNLP 是一个流行的库。您可以在Stanford Natural Language Processing Groups website 上了解它。

为了使用它,您需要在训练数据中标记每个标记(单词),表明它是否是水果。希望这会有所帮助。

【讨论】:

  • @Soham Chakraborty 这有帮助吗?
猜你喜欢
  • 2016-04-24
  • 2012-10-02
  • 2012-08-09
  • 2017-10-04
  • 2011-04-04
  • 2016-08-20
  • 2013-05-12
  • 1970-01-01
  • 2018-04-26
相关资源
最近更新 更多