【发布时间】:2017-10-25 08:06:49
【问题描述】:
有人推荐用于原始文本中 NER 类型的标记工具吗?
该工具的输入应该是一个文本文件库(.txt 简单格式),应该有一个方便的 UI 用于选择单词并设置标签/注释适合选择,输出应该是标签的结构表示(例如 tart index 、 last index 、 JSON 格式的标签)
【问题讨论】:
标签: nlp named-entity-recognition
有人推荐用于原始文本中 NER 类型的标记工具吗?
该工具的输入应该是一个文本文件库(.txt 简单格式),应该有一个方便的 UI 用于选择单词并设置标签/注释适合选择,输出应该是标签的结构表示(例如 tart index 、 last index 、 JSON 格式的标签)
【问题讨论】:
标签: nlp named-entity-recognition
创始人LightTag这里
我们提供了一个超级方便的界面来进行跨度标注,例如命名实体识别、分类和关系。 您可以作为一个标签员工作或引入一个团队,LightTag 将自动在每个人之间分配工作(不再选择文件并记住您已经标记的内容)。
您可以上传自己的建议并让贴标者使用这些建议,或者使用内置模型的 LightTags。 当然,您可以在字符级别进行注释并突出显示子词或多词短语。
【讨论】:
你可以试试https://github.com/lasigeBioTM/MER (bash) 在http://labs.fc.ul.pt/mer/查看演示
【讨论】:
在线工具:
我猜 Dataturks 的 POS 工具应该适用于您的用例,您只需上传数据并指定标签即可。用户界面似乎很方便。
这里是链接: https://dataturks.com
这是一个在线工具,因此您可以与多人一起完成标记工作。
不支持您要查找的确切输出格式,但可以轻松地将格式转换为您要查找的格式,输出类似于: word___LABEL word2___LABEL ,所以一个简单的 2 行脚本可以将其转换为 start 和结束索引。
离线:
您可以查看的另一个工具是 prodigy,它是一个可下载的软件,并且可以执行类似的操作。只是你可能愿意预先支付。 https://prodi.gy
【讨论】: