【发布时间】:2010-06-30 10:15:51
【问题描述】:
这是基本问题:我有大约 10,000 个包含数据块的 word 文档。每个块都有编号,并且还有一个随附的图像。我需要以某种方式将这些单独的块作为图像存储到数据库中(文本会很棒,但请阅读下面的注释),而不需要编号。
我可以让打字员使用###QUESTIONSTART###、###QUESTIONEND### 或其他任何方式标记块的开头和结尾。 我正在尝试获取该文档,将其转换为大图像,查找这些标签,将标签之间的部分提取为图像,然后继续下一个块。
我一直在研究一些 API,我认为一旦我弄清楚如何获取每个开始/结束标记的坐标,我肯定可以裁剪图像。有什么建议么?我不想逐个像素地编写一个必须去 O(no of blocks * n^2)
的匹配器注意:这些块包含复杂的方程式/数学类型的东西,因此是图像。我没有足够的钱让 1000 名打字员接受过 TeX 培训并重新输入整个交易。 OCR 还没有削减它。
【问题讨论】: