寻求引文解析器答案

【问题标题】：Seeking citation parser寻求引文解析器
【发布时间】：2011-09-16 11:32:29
【问题描述】：

我需要一个解析器来扫描学术文本、提取引文并将这些引文解析为其组成部分（作者、标题、出版日期等）。

我尝试过 Paracite，但它速度非常慢，而且无法产生高质量的结果。

任何语言都可以，但首选 Java。

【问题讨论】：

【解决方案1】：

看看ParsCit：

这是 ParsCit 项目的主页，它执行两个任务：1）引用字符串解析，有时也称为引用解析或引用提取，以及 2) 的逻辑结构解析科学文献。它被构建为受监督的机器使用条件随机场作为学习的学习过程机制。你可以下载下面的代码，在线解析字符串，或者将批处理作业发送到我们的 Web 服务。该代码包含两个训练数据、特征生成器和 shell 脚本来连接系统到网络服务（在本网站上使用）。

【讨论】：

谢谢，该链接还指向同一域中的其他一些有趣的项目。我去看看！

【解决方案2】：

我们最近遇到了类似的问题，最终基于 ParsCit 编写了自己的解析器，但使用 Wapiti 而不是 CRF++ 作为条件随机字段模型。就像 Mike 上面提到的那样，基于 ML 的解析器的问题在于获得良好的标记训练数据。为此，我们编写了一个可视化编辑器，让您可以标记结果（并将它们保存为训练数据）。这种方法非常适合解析书目。

如果有人感兴趣，我们已经在anystyle.io 提供了解析器和编辑器。

【讨论】：

【解决方案3】：

项目列表在这里： https://forums.zotero.org/discussion/1211/

Cb2bib 使用正则表达式http://www.molspaces.com/cb2bib/

Citeseer 使用大量作者姓名和标题。你可以看看他们的出版物列表

这是一个项目，但在 python 中： https://code.google.com/p/pdfssa4met/

另请参阅这些 stackoverflow 问题： * Extracting information from PDFs of research papers

【讨论】：