【问题标题】:Customised tokens annotation in RR中的自定义标记注释
【发布时间】:2017-05-03 16:04:48
【问题描述】:

目前我正在做一个 NLP 项目。这对我来说是全新的,这就是为什么我真的在为在 R 中实现 NLP 技术而苦苦挣扎。 一般来说,我需要从描述中提取机器实体。我有一个机器字典,其中包含 2 列:制造商和型号。

要训练提取模型,我必须有一个带注释的语料库。这就是我卡住的地方。如何在文本中注释机器?以下是文本示例:

Skyjack 3219E 电动剪刀式升降机是由 4 x 6 V 电池供电的自行式设备。该机器易于充电,只需将其插入电源即可。该装置可作为任何平坦铺砌表面上的工作装置用于建筑、制造和维护操作。您可以在室内和室外使用它。由于其无痕轮胎,机器不会在地板上留下任何可见的痕迹。该机器可以全高度驱动,并且非常易于操作。 S3219E 具有 250 公斤的平台有效载荷能力。室内操作时可容纳两人,室外操作时可容纳一人。通过 Heli 安全学院了解我们的培训。

Skyjack 3219E - 这是一台必须被识别和标记的机器。 我希望得到类似于 POS 标记的结果,但不是名词和动词 - 制造商和型号。所有其他词都可能被标记为不相关。

手动注释非常昂贵,而且通常描述非常冗长且混乱。

有没有办法调整词性标注器并使用自定义词典进行标注?任何帮助表示赞赏!

【问题讨论】:

    标签: r dictionary nlp tagging named-entity-recognition


    【解决方案1】:

    编辑:(在写这篇文章的最后我意识到你打算使用 R,我所有的算法建议都是基于 python 实现,但我希望你仍然可以从答案中得到一些想法)

    通常这被认为是NER(命名实体识别)问题。我在工作中正在解决类似的问题。

    文本是否有一般结构?

    例如实体名称一般出现在第一句吗?这可能是一种简化启发式搜索或基于字典(例如已知产品)的搜索的方法。

    注释有那么高吗?

    考虑到您基本上只需要一个您关心的标签,您可能只需要一周的标记时间。我正在努力在非结构化句子中发现品牌名称,我们在一周的注释工作和训练CRF(条件随机字段)模型方面做得很好。请参阅pycrfsuite 一个好的 python 包装器,它是 CRF 的快速 c++ 实现

    [编辑]

    对于注释,我使用了变体 BIO 标记方案。

    这是典型的句子,例如:“我们会喜欢我们附近的维多利亚秘密”,当被标记时会看起来像这样。

    We O
    would O
    love O
    a O
    victoria B-ENT
    's I-ENT
    secret I-ENT
    

    O 表示在我关心的实体(品牌)之外O的词。 B代表实体短语的B开头,I代表实体短语的Inside。

    在您的情况下,您似乎想将制造商和型号项目分开。因此,您可以使用 B-MAN、I-MAN、B-MOD、I-MOD 等标签。下面是一个注解的例子:

    The O 
    Skyjack B-MAN
    3219E B-MOD
    electric O
    scissor O
    lift O
    etc..
    

    当然,模型制造商的名称中可以包含多个单词,因此请使用 I-MOD、I-MAN 标签来捕获它(参见我上面工作中的示例)

    请参阅this link(ipython 笔记本)以获取标记序列如何为我寻找的完整示例。我的工作就是以此为基础的。

    构建一本大字典

    我们废弃了互联网,使用或拥有来自合作伙伴的数据库。并构建一个庞大的字典,我们将其用作 CRF 中的特征和一般搜索。请参阅ahocorosick 在 python 中进行基于快速尝试的关键字搜索。

    希望这能有所帮助!

    【讨论】:

    • 遗憾的是没有结构,因为大多数文本都取自 eBay 等网站。我还打算使用 CRF(现在我确定我的方法很好:) 现有字典已经相当庞大(约 160k 个条目)。谢谢!
    • @KaterinaKhrushch。很高兴我能帮助你!如果您认为此答案可能会有所帮助,请考虑对其进行投票! :)
    • 我还有一个问题,这个注释应该是什么样子?典型的做法是什么?例如。 Skyjack 3219E 电动剪刀式升降机 ?或者像这样:Skyjack/Manuf 3219E/Model ?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-07-07
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多