【问题标题】:Extracting Product Attribute/Features from text从文本中提取产品属性/特征
【发布时间】:2016-03-16 05:31:39
【问题描述】:

我被分配了一项从产品描述中提取特征/属性的任务。

Levi Strauss slim fit jeans
Big shopping bag in pink and gold

我需要能够提取出诸如“牛仔裤”和“修身版型”或“购物袋”和“粉红色”和“金色”之类的属性。 产品描述列表不仅仅是衣服,它们基本上可以是任何东西。

我不确定如何解决这个问题。我尝试实现命名实体识别器解决方案以及 POS 实现,NER 实现无法识别任何标记,并且大多数标记在他的 POS 解决方案中显示为 NNP(专有名词),这对我没有多大帮助。我需要一种能够区分品牌名称和产品功能的方法(例如,如果它是 T 恤、颜色或设计(圆领、V 领)等)。

我确实实施了一个 KMean 解决方案,该解决方案将类似产品聚集在一起,但话又说回来,这不是我想要的结果。

只是想找人指引我正确的方向。

【问题讨论】:

  • 当然 k-means 是行不通的。您需要一个面向语言的过程,而不是统计方法。不要查看数据挖掘和机器学习领域(这里没有学习),而是专注于语言方法并尝试使用外部数据。
  • 嘿,有什么更新吗?解决几乎相同的问题。
  • 你提前知道属性和特征吗?

标签: nlp feature-extraction named-entity-recognition named-entity-extraction


【解决方案1】:

您可以利用基于方面的情绪分析 (ABSA) 的最新进展。在这个领域有一个分支可以提取方面和意见术语。一个方面就像一个属性(实体/产品/服务的一个特征)。意见是该属性的值。例如,在这句话中:“这家餐厅的食物很好,员工很友好”,有两个方面/意见对:{("Food", "Good"), ("Staff" , “友好”)}

ABSA 传统上用于用户评论,但谁知道呢?它在这里也可以正常工作。您唯一需要了解的是,ABSA 中的所有解决方案都是特定于领域的,这意味着您针对一个特定领域(在您的案例中为“服装”)训练您的模型。推广到多领域的结果很差,仍然是一个积极研究的问题。

希望对你有帮助

【讨论】:

    【解决方案2】:

    有一些论文在讨论这个话题,比如 OpenTag 认为它是一个序列标注问题。

    【讨论】:

      猜你喜欢
      • 2013-12-28
      • 1970-01-01
      • 1970-01-01
      • 2012-06-20
      • 2020-11-02
      • 2013-12-11
      • 2019-04-09
      • 2016-09-12
      • 2021-08-09
      相关资源
      最近更新 更多