如何将word文档/pdf/图像的部分（每页多个部分，多个页面）提取为单独的图像/word文档/pdf？答案

【问题标题】：How do I extract sections (multiple sections per page, multiple pages) of a word document/pdf/image as separate images/word documents/pdfs?如何将word文档/pdf/图像的部分（每页多个部分，多个页面）提取为单独的图像/word文档/pdf？
【发布时间】：2010-06-30 10:15:51
【问题描述】：

这是基本问题：我有大约 10,000 个包含数据块的 word 文档。每个块都有编号，并且还有一个随附的图像。我需要以某种方式将这些单独的块作为图像存储到数据库中（文本会很棒，但请阅读下面的注释），而不需要编号。

我可以让打字员使用###QUESTIONSTART###、###QUESTIONEND### 或其他任何方式标记块的开头和结尾。 我正在尝试获取该文档，将其转换为大图像，查找这些标签，将标签之间的部分提取为图像，然后继续下一个块。

我一直在研究一些 API，我认为一旦我弄清楚如何获取每个开始/结束标记的坐标，我肯定可以裁剪图像。有什么建议么？我不想逐个像素地编写一个必须去 O(no of blocks * n^2)

的匹配器

注意：这些块包含复杂的方程式/数学类型的东西，因此是图像。我没有足够的钱让 1000 名打字员接受过 TeX 培训并重新输入整个交易。 OCR 还没有削减它。

【问题讨论】：

标签： c# java c++ pdf image

【解决方案1】：

我不明白你所有的问题，但在我的印象中，Tika 可以帮助你。

【讨论】：

Tika 目前只进行文本/mime 类型的解析。不确定我是否可以用它来吐出图像。

【解决方案2】：

如果你可以让打字员为 10,000 个文档添加块标记，为什么打字员不能

打开 Word 文档
从 Word 文档中复制图像
将图像粘贴到画图中
将图像保存到他们的磁盘？

您可以想出一个对您和您的打字员都有意义的图像命名方案。

然后您可以使用程序从磁盘驱动器中收集图像并将它们加载到您的数据库中。

【讨论】：