如何在 Refextract 上同时运行多个文件答案

【问题标题】：How to run multiple files together on Refextract如何在 Refextract 上同时运行多个文件
【发布时间】：2020-08-15 16:24:05
【问题描述】：

我是 python 新手，我需要从科学文献中提取参考资料。以下是我正在使用的代码

from refextract import extract_references_from_file

import pandas as pd

references = extract_references_from_file('1503.07589.pdf')

dfref = pd.DataFrame(references)

dfref.to_excel('./refs.xlsx')

我只能使用此命令一次从单个文件中提取引用，但我需要同时从多个文件中提取引用。所以，请指导我是否可能以及如何做到这一点。非常感谢！

【问题讨论】：

标签： python python-3.x reference pdftotext

【解决方案1】：

docs 声称提取的引用作为 dict 返回。

返回包含提取的引用和统计信息的字典。

这不太准确；返回dicts 的list，每个参考一本字典。

所以你只需要建立一个更长的列表。

from refextract import extract_references_from_file

higgs_papers = ['1503.07589', '2008.05492']
references = []
for paper in higgs_papers:
    references.extend(extract_references_from_file(f'/tmp/{paper}.pdf'))

现在您有一个更大的列表references，您可以将其变成更大的df。

您可能还会发现glob 很方便：

import glob

files = glob.glob('/tmp/*.pdf')

【讨论】：

非常感谢。它确实有效，但是在将其转换为 xls 格式时，一个参考的所有信息都在一个单元格中，如下所示 {'raw_ref': ['Berg, B.L., 2000. 社会科学的定性研究方法。 Needham Heights：']，'author'：['Berg, B.L.']，'misc'：['社会科学的定性研究方法。 Needham Heights:'], 'year': ['2000']} 虽然它之前被划分为不同的列，如 misc、author、raw_ref 等。我需要将其划分，因为它将用于创建网络图。那么，有没有其他方法可以实现呢。
对不起！我刚才做了一个编辑，把.append()变成了.extend()，所以每个元素都是一个单独的引用。