如何从 PDF 或 Word 中提取图像以及图像周围的文本？答案

【问题标题】：How to extract images from PDF or Word, together with the text around images?如何从 PDF 或 Word 中提取图像以及图像周围的文本？
【发布时间】：2019-08-30 12:47:52
【问题描述】：

我发现有一些库可以从 PDF 或 word 中提取图像，例如 docx2txt 和 pdfimages。但是如何获取图像周围的内容（例如图像下方可能有标题）？或者获取每张图片的页码？

PyPDF2 和 minecart 等其他一些工具可以逐页提取图像。但是，我无法成功运行这些代码。

有没有获取图片信息的好方法？（从 docx2txt 或 pdfimages 获得的图像，或另一种提取带有信息的图像的方式）

【问题讨论】：

标签： python shell pdf ms-word image-extraction

【解决方案1】：

我找到了 doc2txt 的代码，它只是解析 docx 文件的 xml。所以这实际上是一个非常简单的任务..

参考：doc2txt

【讨论】：

【解决方案2】：

docx2python 将图像拉入文件夹并在提取的文本中留下-----image1.png---- 标记。这可能会让您更接近您想去的地方。

【讨论】：

【解决方案3】：

几个月前，我对 docx2python 进行了重新编程，以从 docx 文件中重新生成结构化（具有级别）xml 格式文件，这在许多文件上效果都很好。

据我所知，一个段落包含多个 Run，每个 Run 仅包含一个文本，有时还包含图像。您可以阅读此文档了解详细信息。 https://docs.microsoft.com/en-us/dotnet/api/documentformat.openxml.wordprocessing.paragraph?view=openxml-2.8.1.

docx2python 支持提取带有文本的图像。您使用 docx2python 阅读段落，而 ----media/imagen---- 显示在您的文本中，这是一个图像占位符。然后，如果您设置extract_image=True，则可以访问此图像。好吧，你会得到你的图像在 pagaraph 文本和图像文件列表中调用的内容。随意搭配。

【讨论】：