检测文件夹中多个 PDF 的内容类型答案

【问题标题】：Detect the content type of multiple PDF in a Folder检测文件夹中多个 PDF 的内容类型
【发布时间】：2018-09-13 05:41:04
【问题描述】：

到目前为止，我在 anaconda 平台中使用 PyPDF2 在 20000+ pdf 中放置水印。该代码适用于大多数 PDF 文件，但其中有一些文件的内容是报告中扫描不佳的图像。

我想知道 python 中是否有工具或任何其他方式可以分析 PDF 的内容并确定 PDF 是图像还是带有文本字符的 pdf 文件。这将让我知道哪些文件有这个缺陷并将它们放在其他文件夹中。

谢谢

我添加了我的代码。

import PyPDF2 #this library requires to be installed
import os


if __name__ == "__main__":


    ROOT_PATH = "."
    #STAMP_PATH = "." + "/stamped/"
    TEMPLATE_PATH = "."
    
    STAMP_PATH = "."
        
    
    count = 0
    
    for dirName, subdirList, fileList in os.walk(ROOT_PATH):
        
        files=[]

        print('Found directory: %s' % dirName)
        for fileName in fileList:

            if fileName.find('.pdf') > 0:
                count += 1

                print('\tHandling %s - %s  %s' % (count, dirName, fileName))

                files.append(fileName)


#=======================main code part ==========================================                
                file= open(fileName,'rb')
                reader = PyPDF2.PdfFileReader(file)
                page= reader.getPage(0)
                
                
                water = open(TEMPLATE_PATH + 'StampTemplate1109.pdf','rb')
                reader2 = PyPDF2.PdfFileReader(water)
                waterpage = reader2.getPage(0)
                
                #command to merge parent PDF first page with PDF watermark page
                page.mergeTranslatedPage(waterpage, 0, -20, expand=True)
                
                
                writer =PyPDF2.PdfFileWriter()
                writer.addPage(page)
                
                #add rest of PDF pages
                for pageNum in range(1, reader.numPages): # this will give length of book
                 pageObj = reader.getPage(pageNum)
                 writer.addPage(pageObj)
                 
                #return the parent PDF file with the watermark 
                # here we are writing so 'wb' is for write binary
                resultFile = open(STAMP_PATH + 'Reviewed ' + fileName,'wb')
                
                writer.write(resultFile)
                file.close()
                resultFile.close()
#==============================================================================                

    print "TOTAL OF %s PROCESSED" % count

【问题讨论】：

标签： python pdf automation pypdf2

【解决方案1】：

由于您已经在使用 PyPDF2，您可能希望使用 PageObject.extractText 函数来查看您是否在 PDF 的每一页上获得任何文本。如果你从一个页面得到一个空字符串，那么它可能是一个图像。

【讨论】：

谢谢...它有助于检测文件。我没想到：D。聪明的方式