【发布时间】:2019-05-24 06:58:12
【问题描述】:
我正在处理银行收据的 OCR 问题,我需要提取日期和帐号等详细信息。处理输入后,我使用 Tessaract-OCR(在 python 中使用 pyteseract)。我已经获得了 hocr 输出文件,但是我无法理解它。我们如何从 HOCR 输出文件中提取信息?请注意,收据的方框中填写了数字,就像普通表格一样。
我使用以下文本进行提取。我应该使用不同的编码吗?
import os
if os.path.isfile('output.hocr'):
fp=open('output.hocr','r',encoding='UTF-8')
text=fp.read()
fp.close()
注意:所附图像是数据的一个示例。这些图像以 pdf 文件的形式提供,我正在以编程方式将其转换为图像。
【问题讨论】:
-
这似乎不起作用。我需要从收据的图像中提取信息。
-
不提供示例数据时非常困难..
-
我已使用数据集中的示例图像更新了问题。请参阅。
-
我的意思是你的 hocr 的副本...