【发布时间】:2017-05-03 16:04:48
【问题描述】:
目前我正在做一个 NLP 项目。这对我来说是全新的,这就是为什么我真的在为在 R 中实现 NLP 技术而苦苦挣扎。 一般来说,我需要从描述中提取机器实体。我有一个机器字典,其中包含 2 列:制造商和型号。
要训练提取模型,我必须有一个带注释的语料库。这就是我卡住的地方。如何在文本中注释机器?以下是文本示例:
Skyjack 3219E 电动剪刀式升降机是由 4 x 6 V 电池供电的自行式设备。该机器易于充电,只需将其插入电源即可。该装置可作为任何平坦铺砌表面上的工作装置用于建筑、制造和维护操作。您可以在室内和室外使用它。由于其无痕轮胎,机器不会在地板上留下任何可见的痕迹。该机器可以全高度驱动,并且非常易于操作。 S3219E 具有 250 公斤的平台有效载荷能力。室内操作时可容纳两人,室外操作时可容纳一人。通过 Heli 安全学院了解我们的培训。
Skyjack 3219E - 这是一台必须被识别和标记的机器。 我希望得到类似于 POS 标记的结果,但不是名词和动词 - 制造商和型号。所有其他词都可能被标记为不相关。
手动注释非常昂贵,而且通常描述非常冗长且混乱。
有没有办法调整词性标注器并使用自定义词典进行标注?任何帮助表示赞赏!
【问题讨论】:
标签: r dictionary nlp tagging named-entity-recognition