【问题标题】:How to read pdf contains in .tar file using python如何使用python读取.tar文件中包含的pdf
【发布时间】:2017-08-04 18:48:47
【问题描述】:

我在 .tar 文件中有文件,我可以从 ##.tar 文件中提取成员,并且我也在使用 tika 解析器来解析 pdf 文件,收到文件未找到错误。

 with tarfile.open(os.path.join(DEFAULT_PATH,filename), "r") as tarf:
    for members in tarf.getmembers():
        f = tarf.extractfile(members)
        parsed_pdf =  parser.from_file(f)

我不想将 pdf 提取到另一个目录中,而只是从 .tar 文件中读取

【问题讨论】:

    标签: python python-2.7 pdf apache-tika


    【解决方案1】:

    使用下面的代码可以解决上述问题

            for members in tarf.getnames()[1:]:
    
               tarf.extract( members, './full_text')
               parsed_pdf =  parser.from_file(os.path.join(DEFAULT_PATH,filename))
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2015-09-27
      • 1970-01-01
      • 1970-01-01
      • 2015-06-18
      • 1970-01-01
      • 1970-01-01
      • 2020-05-10
      • 1970-01-01
      相关资源
      最近更新 更多