OntoNotes 5.0是OntoNotes项目的最后一个版本,是BBN Technologies、科罗拉多大学、宾夕法尼亚大学和南加州大学信息科学研究所之间的合作项目。

该项目的目标是对一个大型语料库进行注释,该语料库由三种语言(英语、汉语和阿拉伯语)的各种类型的文本(新闻、电话对话、网络日志、usenet新闻组、广播、脱口秀)组成,包含结构信息(语法和谓词论证结构)和浅层语义(与本体和核心参考相关联的词义)。

数据具体情况如下:

  Arabic English Chinese
News 300k 625k 250k
BN n/a 200k 250k
BC n/a 200k 150k
Web n/a 300k 150k
Tele n/a 120k 100k
Pivot n/a n/a 300

 

 

OntoNotes项目建立在两个久经考验的资源上,沿用了Penn Treebank的语法和Penn PropBank的谓语-论点结构。它的语义表示包括名词和动词的词义分解,一些词义与本体连接,以及核心参考。

数据

本版本的文档目录中包含了描述注释指南和从数据库中获取各种数据视图的例程的文档。注释既以单独的文本文件提供给每个注释层(Treebank、PropBank、词义等),也以集成关系数据库(ontonotes-v5.0.sql.gz)的形式提供,并以Python API提供方便的跨层访问。

这个版本包含一些非验证性的XML文件,这是一个已知的问题。然而,包含的工具使用一个非验证的XML解析器来解析.xml文件并加载适当的值。

工具

这个版本包括OntoNotes DB Tool v0.999 beta,该工具用于从原始注释文件组装数据库。它可以在目录tools/ontonotes-db-tool-v0.999b中找到。这个工具可以用来从数据库中导出数据的各种视图,它提供了一个API,可以实现新的查询或视图。OntoNotes DB工具包的许可信息包含在其源目录中。

例子

中文:

【NLP公开数据集】OntoNotes Release 5.0数据集介绍

阿拉伯文:

【NLP公开数据集】OntoNotes Release 5.0数据集介绍 

英文:

【NLP公开数据集】OntoNotes Release 5.0数据集介绍

下载及处理

由于下载有很多很好的文献这里就不详细写了。

可参考:

https://zhuanlan.zhihu.com/p/108797669

https://blog.csdn.net/m0_37722110/article/details/103441140

 

参考文献:【1】https://catalog.ldc.upenn.edu/LDC2013T19

(注:为学习记录所用,若有错误希望大家指出!)

相关文章:

  • 2021-10-16
  • 2021-09-20
  • 2021-10-13
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-09-06
猜你喜欢
  • 2021-10-28
  • 2021-09-11
  • 2021-04-17
  • 2021-07-12
  • 2021-05-06
  • 2021-04-23
  • 2021-07-19
相关资源
相似解决方案