【问题标题】:dbpedia NLP dataset used for Named entity extraction用于命名实体提取的 dbpedia NLP 数据集
【发布时间】:2014-12-02 11:34:03
【问题描述】:

我浏览了他们的 github 文件以及官方网站,我找不到他们在 splotlight 中使用的命名实体标记训练语料库。

如何找到数据集而不是训练好的模型?

【问题讨论】:

标签: nlp dbpedia spotlight-dbpedia


【解决方案1】:

查看此链接https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki/Web-service

这里解释了设置 dbpedia 离线查找的方法。他们还提供了 4 个 tar 文件,这些文件是

  • redirects_en.nt
  • short_abstracts_en.nt
  • instance_types_en.nt
  • article_categories_zh.nt

这些应该是它的训练数据。

【讨论】:

  • 您参考的链接提供了使用 dbpedia-spotlight 服务的指南,我没有找到有关如何生成 NER 训练语料库的任何信息。确实我们可以使用 4 个 tar 文件来自己生成,但是整个解析过程非常耗时,更重要的是,它不是我们核心逻辑的一部分。所以我很期待一个工具来生成我之前发布的 ner 训练数据(github.com/dbpedia-spotlight/pignlproc)
猜你喜欢
  • 2015-04-26
  • 2018-08-29
  • 2019-07-19
  • 2018-03-08
  • 2020-07-02
  • 2017-05-18
  • 2013-05-02
  • 1970-01-01
  • 2017-11-29
相关资源
最近更新 更多