【问题标题】:How to extract images from PDF or Word, together with the text around images?如何从 PDF 或 Word 中提取图像以及图像周围的文本?
【发布时间】:2019-08-30 12:47:52
【问题描述】:

我发现有一些库可以从 PDF 或 word 中提取图像,例如 docx2txt 和 pdfimages。但是如何获取图像周围的内容(例如图像下方可能有标题)?或者获取每张图片的页码?

PyPDF2 和 minecart 等其他一些工具可以逐页提取图像。但是,我无法成功运行这些代码。

有没有获取图片信息的好方法? (从 docx2txt 或 pdfimages 获得的图像,或另一种提取带有信息的图像的方式)

【问题讨论】:

    标签: python shell pdf ms-word image-extraction


    【解决方案1】:

    我找到了 doc2txt 的代码,它只是解析 docx 文件的 xml。所以这实际上是一个非常简单的任务..

    参考:doc2txt

    【讨论】:

      【解决方案2】:

      docx2python 将图像拉入文件夹并在提取的文本中留下-----image1.png---- 标记。这可能会让您更接近您想去的地方。

      【讨论】:

        【解决方案3】:

        几个月前,我对 docx2python 进行了重新编程,以从 docx 文件中重新生成结构化(具有级别)xml 格式文件,这在许多文件上效果都很好。

        据我所知,一个段落包含多个 Run,每个 Run 仅包含一个文本,有时还包含图像。您可以阅读此文档了解详细信息。 https://docs.microsoft.com/en-us/dotnet/api/documentformat.openxml.wordprocessing.paragraph?view=openxml-2.8.1.

        docx2python 支持提取带有文本的图像。您使用 docx2python 阅读段落,而 ----media/imagen---- 显示在您的文本中,这是一个图像占位符。然后,如果您设置extract_image=True,则可以访问此图像。好吧,你会得到你的图像在 pagaraph 文本和图像文件列表中调用的内容。随意搭配。

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2011-12-17
          • 2011-08-04
          • 2014-02-04
          • 2014-09-19
          • 1970-01-01
          相关资源
          最近更新 更多