Python -处理PDF

处理pdf文档

第一、

从文本中提取文本

第二、

创建PDF

两种方法

#使用PdfFileWriter

import PyPDF2

pdfFiles = []

for filename in os.listdir(\'.\'):

if filename.endswith(\'.pdf\'):

pdfFiles.append(filename)

print(pdfFiles)

pdfWriter = PyPDF2.PdfFileWriter()

pdfFileObj = open(pdfFiles[0],\'rb\')

pdfReader = PyPDF2.PdfFileReader(pdfFileObj) # 得到PdfFileReader对象

first,end =map(int,input(\'从多少页到多少页(用空格隔开):\').split())

for pageNum in range(first-1,end):

pageObj = pdfReader.getPage(pageNum)

pdfWriter.addPage(pageObj)

pdfOutput = open (\'split_pdf.pdf\',\'wb\')

pdfWriter.write(pdfOutput)

pdfOutput.close()

#使用PdfFileMerger()

import PyPDF2

merger = PyPDF2.PdfFileMerger()

a = [str(i)+\'webbook.pdf\'for i in range(0,124)]

for i in a:

print(i)

merger.append(open(i,\'rb\'))

print("合并完成第"+str(i))

with open(\'combintion.pdf\',\'wb\') as f:

merger.write(f)

pdfkit 使用教程

http://blog.csdn.net/shenwanjiang111/article/details/68925569