【发布时间】:2017-08-04 18:48:47
【问题描述】:
我在 .tar 文件中有文件,我可以从 ##.tar 文件中提取成员,并且我也在使用 tika 解析器来解析 pdf 文件,收到文件未找到错误。
with tarfile.open(os.path.join(DEFAULT_PATH,filename), "r") as tarf:
for members in tarf.getmembers():
f = tarf.extractfile(members)
parsed_pdf = parser.from_file(f)
我不想将 pdf 提取到另一个目录中,而只是从 .tar 文件中读取
【问题讨论】:
标签: python python-2.7 pdf apache-tika