【问题标题】:How to run multiple files together on Refextract如何在 Refextract 上同时运行多个文件
【发布时间】:2020-08-15 16:24:05
【问题描述】:

我是 python 新手,我需要从科学文献中提取参考资料。以下是我正在使用的代码

from refextract import extract_references_from_file

import pandas as pd

references = extract_references_from_file('1503.07589.pdf')

dfref = pd.DataFrame(references)

dfref.to_excel('./refs.xlsx')

我只能使用此命令一次从单个文件中提取引用,但我需要同时从多个文件中提取引用。所以,请指导我是否可能以及如何做到这一点。非常感谢!

【问题讨论】:

    标签: python python-3.x reference pdftotext


    【解决方案1】:

    docs 声称提取的引用作为 dict 返回。

    返回包含提取的引用和统计信息的字典。

    这不太准确; 返回dicts 的list, 每个参考一本字典。

    所以你只需要建立一个更长的列表。

    from refextract import extract_references_from_file
    
    higgs_papers = ['1503.07589', '2008.05492']
    references = []
    for paper in higgs_papers:
        references.extend(extract_references_from_file(f'/tmp/{paper}.pdf'))
    

    现在您有一个更大的列表references,您可以将其变成更大的df


    您可能还会发现glob 很方便:

    import glob
    
    files = glob.glob('/tmp/*.pdf')
    

    【讨论】:

    • 非常感谢。它确实有效,但是在将其转换为 xls 格式时,一个参考的所有信息都在一个单元格中,如下所示 {'raw_ref': ['Berg, B.L., 2000. 社会科学的定性研究方法。 Needham Heights:'],'author':['Berg, B.L.'],'misc':['社会科学的定性研究方法。 Needham Heights:'], 'year': ['2000']} 虽然它之前被划分为不同的列,如 misc、author、raw_ref 等。我需要将其划分,因为它将用于创建网络图。那么,有没有其他方法可以实现呢。
    • 对不起!我刚才做了一个编辑,把.append()变成了.extend(),所以每个元素都是一个单独的引用。
    猜你喜欢
    • 2020-04-23
    • 2022-01-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-02-23
    • 2019-05-21
    • 1970-01-01
    相关资源
    最近更新 更多