【问题标题】:Predefined Multilable Text Classification预定义的多标签文本分类
【发布时间】:2018-07-20 20:56:20
【问题描述】:

朋友们, 我们正在尝试解决一个问题,即我们只有评论转储,但 .csv 文件中没有评级。 .csv 中的每一行都是客户对特定产品的评论,例如电视。

在这里,我想将该文本分类为该产品领域专家给出的以下预定义类别:

  • 质量
  • 客户
  • 支持
  • 积极反馈
  • 价格
  • 技术

部分评价如下:

  1. 最近买了这个产品,感觉市场上不错。
  2. 一直在等待这个产品,但很失望
  3. 建造质量不是很好
  4. LED 屏幕画面完美。喜欢这个产品
  5. 该死! 2 个月前买的这台电视,猜猜看,屏幕显示一条直线,LED 屏幕质量差
  6. 这有非常复杂的选项,这台电视的文档不是那么用户友好
  7. 我无法使用我的智能设备连接到这台电视。根本行不通
  8. 客户支持很差。我不推荐这个
  9. 效果很好。很棒的产品

现在,有 10 位不同客户的 10 条以上评论,我如何将它们分类到给定的桶中(您可以调用多标签分类或命名实体识别或带有情感分析的信息提取或任何东西)

我尝试了所有与 NLP 词频计数相关的东西(在 R 中)并提到了 StanfordNLP (https://nlp.stanford.edu/software/CRF-NER.shtml) 等等。但无法得到具体的解决方案。

谁能指导我如何解决这个问题?谢谢!!!

【问题讨论】:

  • 您能否将每个存储桶(类别)列为单独的项目符号?您的问题中列出了七个存储桶还是仅列出了一个?哪条评论属于价格类别?
  • 当然安丹 1.质量; 2.客户;3.支持;4.正面反馈; 5.价格; 6.技术。如果没有与该类别匹配的情绪,则该类别可以为零,这最终对产品制造商意味着,他不必担心。希望我回答了你的问题

标签: machine-learning nlp stanford-nlp multiclass-classification


【解决方案1】:

大多数 NLP 框架将处理多类分类。 R 中的字数本身可能不太准确。您可以探索的 Python 库是 Spacy。也可以使用 Google、AWS、Microsoft 等商业 API。每个类别都需要相当多的示例进行训练。随时发布您的代码以及您看到的问题或性能差距,以获得进一步的帮助。

【讨论】:

  • 感谢 Andan 和 Sam.. 我正在关注这个链接 -- brandonrose.org/clustering 这符合我的要求。但是是的,正如 Andan 提到的,我们需要为每个类别提供一些样本进行训练。它现在正在工作..将尽快更新详细信息...
猜你喜欢
  • 2016-06-14
  • 2017-01-22
  • 1970-01-01
  • 1970-01-01
  • 2021-08-17
  • 2020-05-12
  • 1970-01-01
  • 2019-05-20
  • 2016-12-10
相关资源
最近更新 更多