使用pypdf2从pdf中提取标题不起作用答案

【问题标题】：Extracting title from pdf using pypdf2 not working使用pypdf2从pdf中提取标题不起作用
【发布时间】：2018-07-18 11:38:12
【问题描述】：

我正在尝试使用 pyPDF2 提取 PDF 文件的标题。输出要么没有，要么标题错误。我也试过使用PDFminer，结果还是一样。我尝试使用 3 个不同的 pdf 文件。有没有更好的方法来更准确地提取标题？这是我使用的代码：

from PyPDF2 import PdfFileReader

def get_pdf_title(pdf_file_path):

    pdf_reader = PdfFileReader(open(pdf_file_path, "rb")) 
    return pdf_reader.getDocumentInfo().title

title = get_pdf_title('C:/PythonPrograms/Test.pdf')

print(title)

【问题讨论】：

您的预期输出是什么？ PDF 的标题是什么意思？

标签： python-3.x extraction pdfminer pypdf2

【解决方案1】：

您的代码在 python 3.5.2 上运行，至少对我来说是这样。检查他确实有标题的 PDF 属性。 PDF 的标题是其元数据的一部分，需要进行设置。它不是强制性的，与它的内容无关（除了写它的人的意愿之外），也与它的文件名无关。

如果你在一个没有标题的文件上使用你的 sn-p，它的输出将是一个空字符串。

【讨论】：

谢谢。我更改了 PDF 元数据。现在可以正常使用了。
如果您的问题已得到解答，请确保接受答案以供进一步参考。