从文本中提取产品属性/特征答案

【问题标题】：Extracting Product Attribute/Features from text从文本中提取产品属性/特征
【发布时间】：2016-03-16 05:31:39
【问题描述】：

我被分配了一项从产品描述中提取特征/属性的任务。

Levi Strauss slim fit jeans
Big shopping bag in pink and gold

我需要能够提取出诸如“牛仔裤”和“修身版型”或“购物袋”和“粉红色”和“金色”之类的属性。产品描述列表不仅仅是衣服，它们基本上可以是任何东西。

我不确定如何解决这个问题。我尝试实现命名实体识别器解决方案以及 POS 实现，NER 实现无法识别任何标记，并且大多数标记在他的 POS 解决方案中显示为 NNP（专有名词），这对我没有多大帮助。我需要一种能够区分品牌名称和产品功能的方法（例如，如果它是 T 恤、颜色或设计（圆领、V 领）等）。

我确实实施了一个 KMean 解决方案，该解决方案将类似产品聚集在一起，但话又说回来，这不是我想要的结果。

只是想找人指引我正确的方向。

【问题讨论】：

当然 k-means 是行不通的。您需要一个面向语言的过程，而不是统计方法。不要查看数据挖掘和机器学习领域（这里没有学习），而是专注于语言方法并尝试使用外部数据。
嘿，有什么更新吗？解决几乎相同的问题。
你提前知道属性和特征吗？

标签： nlp feature-extraction named-entity-recognition named-entity-extraction

【解决方案1】：

您可以利用基于方面的情绪分析 (ABSA) 的最新进展。在这个领域有一个分支可以提取方面和意见术语。一个方面就像一个属性（实体/产品/服务的一个特征）。意见是该属性的值。例如，在这句话中：“这家餐厅的食物很好，员工很友好”，有两个方面/意见对：{("Food", "Good"), ("Staff" , “友好”)}

ABSA 传统上用于用户评论，但谁知道呢？它在这里也可以正常工作。您唯一需要了解的是，ABSA 中的所有解决方案都是特定于领域的，这意味着您针对一个特定领域（在您的案例中为“服装”）训练您的模型。推广到多领域的结果很差，仍然是一个积极研究的问题。

希望对你有帮助

【讨论】：

【解决方案2】：

有一些论文在讨论这个话题，比如 OpenTag 认为它是一个序列标注问题。

【讨论】：