【发布时间】:2017-11-19 19:01:14
【问题描述】:
我的电脑中有数千个PDF文件,名称从a0001.pdf到a3621.pdf,每个文件里面都有一个标题;例如a0001.pdf 中的“碳酸铝”,a0002.pdf 中的“硝酸铝”等,我想提取它们以重命名我的文件。
我用这个程序重命名一个文件:
path=r"C:\Users\YANN\Desktop\..."
old='string 1'
new='string 2'
def rename(path,old,new):
for f in os.listdir(path):
os.rename(os.path.join(path, f), os.path.join(path, f.replace(old, new)))
rename(path,old,new)
我想知道是否有解决方案来提取 PDF 文件中嵌入的标题以重命名文件?
【问题讨论】:
-
您已经知道如何使用自定义逻辑重命名一堆文件。您不知道的是如何提取每个pdf 的标题。这将取决于这些 pdf 是如何生成的......已经有 a few Q/As 解决了如何使用 python 从 pdf 中提取文本。或者,也许这些文件具有泄露标题的元数据...如果您可以共享一个示例(一个文件),也许有人可以提供帮助。
-
那么您想知道如何提取PDF文档的标题吗?该标题是如何嵌入在文本(第一个标题)或元数据中的?
-
我没有让 python 进行重命名,而是让 python 将所有命令写入一个文件:
mv oldname newname。查看该文件,进行手动编辑,然后获取它。这将为您省去麻烦,例如。多次写信给(无标题).pdf或其他极端情况。
标签: python python-3.x file pdf