前段时间做的语义角色标注任务(SRL)时需要用到ontonotes-release-5.0的数据集,前前后后花了将近半个月的时间才把数据集处理好,一个个坑踩过来很有必要记录下,希望对其他人有所帮助。

第一步:注册LDC账号并加入组织获取数据

在寻找数据源的过程中很多链接最后都会指向LDC这个神秘的组织。这个组织掌握了各行各业很多种数据集,价格从几百美元到几千美元不等,好在我们需要的ontonotes-release-5.0,免费。在这里是LDC2013T19,如下图:
Ontonotes Release 5.0数据集的获取与处理
点右上角register注册账号没什么难度。

注册账号的过程中需要加入一个组织,这个组织可以是你的大学或者公司或者随便一个其他的什么虚构的组织都可以,但前提是你能在LDC组织名录下面搜得到:
Ontonotes Release 5.0数据集的获取与处理
填好组织之后以下的信息填写没什么难度,一旦你加入的组织通过了申请你就可以进行下一步。然而,很多情况下这个组织的管理员可能并不会及时看到你的申请,所以你的申请左等右等都石沉大海都是有可能的。那怎么办呢?既然人家不通过我的申请,那我自己创建一个组织自己当管理员好了。
Ontonotes Release 5.0数据集的获取与处理
点击create your organization,在右边会弹出具体信息让你填:
Ontonotes Release 5.0数据集的获取与处理
创建好之后回到第一张截图的界面往下拉,可以看到request data:
Ontonotes Release 5.0数据集的获取与处理
之后就是按照提示一步步来,没什么难度。LDC那边可能需要几天来审核(可以联系[email protected]咨询进度,对方也会及时回你邮件),审核通过之后可以在my account界面的右边download链接找到对应的数据下载:
Ontonotes Release 5.0数据集的获取与处理
Ontonotes Release 5.0数据集的获取与处理
这样就完成了数据的获取。注意,这个数据不可以随意transfer,也就是说不能随便给别人用,只能在你注册的组织机构范围内使用,否则可能会承担相应的法律责任!

第二步:处理数据

你以为下载好了就可以直接用了吗?图样图森破,有专门的网页教你怎么去处理这个数据。但是这个网页特别坑爹的是第3步的scripts已经无法下载了,就问你无语不无语。好在有其他地方可以找到下载的script。这个网页介绍的很详细怎么处理数据我就不多少了。处理完之后的数据是**conll格式的*,长这样:
Ontonotes Release 5.0数据集的获取与处理
处理之前的红框单词都是mask掉的:
Ontonotes Release 5.0数据集的获取与处理
如果你觉得这一路走下来太麻烦了而你只想要*conll数据,可以直接从这个GitHub项目获取,都是处理好的数据,一步到位。

相关文章: