【问题标题】:Seeking citation parser寻求引文解析器
【发布时间】:2011-09-16 11:32:29
【问题描述】:

我需要一个解析器来扫描学术文本、提取引文并将这些引文解析为其组成部分(作者、标题、出版日期等)。

我尝试过 Paracite,但它速度非常慢,而且无法产生高质量的结果。

任何语言都可以,但首选 Java。

【问题讨论】:

    标签: java parsing text citations


    【解决方案1】:

    看看ParsCit

    这是 ParsCit 项目的主页,它执行两个 任务:1)引用字符串解析,有时也称为引用 解析或引用提取,以及 2) 的逻辑结构解析 科学文献。它被构建为受监督的机器 使用条件随机场作为学习的学习过程 机制。你可以下载下面的代码,在线解析字符串,或者 将批处理作业发送到我们的 Web 服务。该代码包含两个 训练数据、特征生成器和 shell 脚本来连接 系统到网络服务(在本网站上使用)。

    【讨论】:

    • 谢谢,该链接还指向同一域中的其他一些有趣的项目。我去看看!
    【解决方案2】:

    我们最近遇到了类似的问题,最终基于 ParsCit 编写了自己的解析器,但使用 Wapiti 而不是 CRF++ 作为条件随机字段模型。就像 Mike 上面提到的那样,基于 ML 的解析器的问题在于获得良好的标记训练数据。为此,我们编写了一个可视化编辑器,让您可以标记结果(并将它们保存为训练数据)。这种方法非常适合解析书目。

    如果有人感兴趣,我们已经在anystyle.io 提供了解析器和编辑器。

    【讨论】:

      【解决方案3】:

      项目列表在这里: https://forums.zotero.org/discussion/1211/

      Cb2bib 使用正则表达式http://www.molspaces.com/cb2bib/

      Citeseer 使用大量作者姓名和标题。你可以看看他们的出版物列表

      这是一个项目,但在 python 中: https://code.google.com/p/pdfssa4met/

      另请参阅这些 stackoverflow 问题: * Extracting information from PDFs of research papers

      【讨论】:

      • 谢谢,马克斯。我们最终编写了自己的基于 HMM 的统计识别器。我认为正则表达式方法太脆弱了。现在的困难是获得良好的标记训练数据。我怀疑 Citeseer 的列表可能会有所帮助。
      【解决方案4】:

      你也可以试试这个将学术引用解析成字段的小工具:

      http://citationparser.com

      Citationparser.com 仍处于测试阶段,但 2017 版运行良好,尤其适用于期刊文章,也适用于专着和书籍章节。

      列表不一定是一种风格,但可以是不同官方或非官方风格的混合

      您可以浏览参考并检查全文,也可以导出为尾注文件 (.ENL)。我仅为数百个标题的较小列表开发了这个工具。如果您粘贴一个包含 1000 多个标题的列表,它的运行速度会慢很多。

      【讨论】:

        【解决方案5】:

        您可以尝试查看索引/搜索库,例如 Lucene

        【讨论】:

        • 谢谢,我对 Lucene 很熟悉,但它并没有真正专门解决这个问题。
        猜你喜欢
        • 1970-01-01
        • 2010-10-06
        • 2022-11-27
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2023-03-23
        • 2022-12-10
        相关资源
        最近更新 更多