【发布时间】:2011-09-16 11:32:29
【问题描述】:
我需要一个解析器来扫描学术文本、提取引文并将这些引文解析为其组成部分(作者、标题、出版日期等)。
我尝试过 Paracite,但它速度非常慢,而且无法产生高质量的结果。
任何语言都可以,但首选 Java。
【问题讨论】:
标签: java parsing text citations
我需要一个解析器来扫描学术文本、提取引文并将这些引文解析为其组成部分(作者、标题、出版日期等)。
我尝试过 Paracite,但它速度非常慢,而且无法产生高质量的结果。
任何语言都可以,但首选 Java。
【问题讨论】:
标签: java parsing text citations
看看ParsCit:
这是 ParsCit 项目的主页,它执行两个 任务:1)引用字符串解析,有时也称为引用 解析或引用提取,以及 2) 的逻辑结构解析 科学文献。它被构建为受监督的机器 使用条件随机场作为学习的学习过程 机制。你可以下载下面的代码,在线解析字符串,或者 将批处理作业发送到我们的 Web 服务。该代码包含两个 训练数据、特征生成器和 shell 脚本来连接 系统到网络服务(在本网站上使用)。
【讨论】:
我们最近遇到了类似的问题,最终基于 ParsCit 编写了自己的解析器,但使用 Wapiti 而不是 CRF++ 作为条件随机字段模型。就像 Mike 上面提到的那样,基于 ML 的解析器的问题在于获得良好的标记训练数据。为此,我们编写了一个可视化编辑器,让您可以标记结果(并将它们保存为训练数据)。这种方法非常适合解析书目。
如果有人感兴趣,我们已经在anystyle.io 提供了解析器和编辑器。
【讨论】:
项目列表在这里: https://forums.zotero.org/discussion/1211/
Cb2bib 使用正则表达式http://www.molspaces.com/cb2bib/
Citeseer 使用大量作者姓名和标题。你可以看看他们的出版物列表
这是一个项目,但在 python 中: https://code.google.com/p/pdfssa4met/
另请参阅这些 stackoverflow 问题: * Extracting information from PDFs of research papers
【讨论】:
你也可以试试这个将学术引用解析成字段的小工具:
Citationparser.com 仍处于测试阶段,但 2017 版运行良好,尤其适用于期刊文章,也适用于专着和书籍章节。
列表不一定是一种风格,但可以是不同官方或非官方风格的混合
您可以浏览参考并检查全文,也可以导出为尾注文件 (.ENL)。我仅为数百个标题的较小列表开发了这个工具。如果您粘贴一个包含 1000 多个标题的列表,它的运行速度会慢很多。
【讨论】:
您可以尝试查看索引/搜索库,例如 Lucene
【讨论】: