【问题标题】:Using the stanford NER to parse product data使用 stanford NER 解析产品数据
【发布时间】:2014-05-23 23:06:06
【问题描述】:

我尝试使用斯坦福 NER 来解析产品数据。我的训练数据如下所示:

iPhone 4 16GB black
Nikon D5100
Apple iPhone 4s
kindle touch
kindle fire

现在我想用这些数据训练 NER,所以我必须先对其进行分类。斯坦福网站提供了一个示例,他们解析一本书的一章并标记新行中的每个单词。这对我来说没有帮助,因为数据看起来像:

iPhone
4
16GB
black

“4”不应该换行,但是当我把“iPhone 4”换行时,NER认为“4”是token“iPhone”的类别。

我只需要一些帮助来使用产品数据训练 NER。你有什么建议?您会将“iPhone”归类为“电话”,将“iPhone 4”归类为“电话”吗?

【问题讨论】:

    标签: stanford-nlp named-entity-recognition


    【解决方案1】:

    我想知道您是否能够使用传统(非递归)命名实体有效地提取信息。在我看来,您可能需要更结构化的东西,例如:

    <phone>
        <model> iPhone <model>
        <version> 4 </version>
        <capacity> 16GB <capacity>
        <color> black </color>
    </phone>
    

    例如在this paper 中描述了如何使用 CRF 识别结构化命名实体。基本上,它为每个实体类型学习一个 CRF,并结合后验概率(来自每个单独的 CRF)来识别结构化命名实体。

    确实,这需要对语料库进行一些重新设计,因为实体应该有足够的结构来训练语料库...

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-02-07
      • 2020-05-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多