【发布时间】:2016-03-16 05:31:39
【问题描述】:
我被分配了一项从产品描述中提取特征/属性的任务。
Levi Strauss slim fit jeans
Big shopping bag in pink and gold
我需要能够提取出诸如“牛仔裤”和“修身版型”或“购物袋”和“粉红色”和“金色”之类的属性。 产品描述列表不仅仅是衣服,它们基本上可以是任何东西。
我不确定如何解决这个问题。我尝试实现命名实体识别器解决方案以及 POS 实现,NER 实现无法识别任何标记,并且大多数标记在他的 POS 解决方案中显示为 NNP(专有名词),这对我没有多大帮助。我需要一种能够区分品牌名称和产品功能的方法(例如,如果它是 T 恤、颜色或设计(圆领、V 领)等)。
我确实实施了一个 KMean 解决方案,该解决方案将类似产品聚集在一起,但话又说回来,这不是我想要的结果。
只是想找人指引我正确的方向。
【问题讨论】:
-
当然 k-means 是行不通的。您需要一个面向语言的过程,而不是统计方法。不要查看数据挖掘和机器学习领域(这里没有学习),而是专注于语言方法并尝试使用外部数据。
-
嘿,有什么更新吗?解决几乎相同的问题。
-
你提前知道属性和特征吗?
标签: nlp feature-extraction named-entity-recognition named-entity-extraction