【发布时间】:2020-04-28 10:56:12
【问题描述】:
我将首先解释我的困境:我有数千个 powerpoint 文件 (.ppt) 需要提取文本。问题是文件中的文本是杂乱无章的,当作为一个完整的页面阅读时,它对我需要的内容没有意义(在示例中它会读取:第 1 行、第 3 行、第 2 行、第 4 行、第 5 行)。
我最初使用tika 来读取文件。然后我想如果我使用glob 和win32com.client 转换为pdf,我会有更好的运气,但结果基本相同。这里的图片是文字的一个例子。
所以现在我的想法是,如果我可以按像素位置划分 pdf 或 ppt(并在需要时保存到单独的临时文件中,打开并以这种方式阅读),我可以让事情井井有条并得到我需要的东西。尽管文本在每个框中移动,但黑色轮廓框始终大致位于同一位置。
我找不到任何东西可以拆分单个 pdf 页面,只能将多个页面拆分为一个页面。有谁知道该怎么做?
我需要一起阅读第一个框中的文本(第 1 行和第 2 行)并加载到字典或其他容器中,第二个框也是如此。作为参考,PowerPoint 中只有一张幻灯片。
【问题讨论】:
-
这些是旧格式的
.ppt文件(2007 年之前)还是.pptx文件? -
他们老了,都是
.ppt作为参考,我一直在用我上面建议的方法取得进展。首先ppt到pdf使用win32com,第二个pdf到jpg使用pdf2image,使用PIL裁剪到我需要的帧位置,最后使用pytesseract读取图像。不是最漂亮的,也不是完美的,但如果我明天稍微按摩一下图像,它可能会有所帮助。仅供参考,描述中的屏幕截图是我正在使用的非常简化的版本,这也是阅读文本很困难的部分原因 -
啊,我明白了。我会删除我的答案,因为它对你没有任何帮助:)
标签: python pdf powerpoint text-extraction