【问题标题】:Extracting title from pdf using pypdf2 not working使用pypdf2从pdf中提取标题不起作用
【发布时间】:2018-07-18 11:38:12
【问题描述】:

我正在尝试使用 pyPDF2 提取 PDF 文件的标题。输出要么没有,要么标题错误。我也试过使用PDFminer,结果还是一样。我尝试使用 3 个不同的 pdf 文件。有没有更好的方法来更准确地提取标题? 这是我使用的代码:

from PyPDF2 import PdfFileReader

def get_pdf_title(pdf_file_path):

    pdf_reader = PdfFileReader(open(pdf_file_path, "rb")) 
    return pdf_reader.getDocumentInfo().title

title = get_pdf_title('C:/PythonPrograms/Test.pdf')

print(title)

【问题讨论】:

  • 您的预期输出是什么? PDF 的标题是什么意思?

标签: python-3.x extraction pdfminer pypdf2


【解决方案1】:

您的代码在 python 3.5.2 上运行,至少对我来说是这样。检查他确实有标题的 PDF 属性。 PDF 的标题是其元数据的一部分,需要进行设置。它不是强制性的,与它的内容无关(除了写它的人的意愿之外),也与它的文件名无关。

如果你在一个没有标题的文件上使用你的 sn-p,它的输出将是一个空字符串。

【讨论】:

  • 谢谢。我更改了 PDF 元数据。现在可以正常使用了。
  • 如果您的问题已得到解答,请确保接受答案以供进一步参考。
猜你喜欢
  • 2022-10-05
  • 2013-12-18
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2018-02-12
  • 1970-01-01
  • 1970-01-01
  • 2020-06-25
相关资源
最近更新 更多