【发布时间】:2017-09-01 18:00:47
【问题描述】:
我们有一个 C# .Net 应用程序,它使用 Tesseract 对 .tiff 文件进行光学字符识别 (OCR)。这是一个例子:
然后我们将数据输出到一个文本文件。但是,Tesseract 以垂直方式读取数据。在我的示例图像中,它将 tiff 作为两列数据读取,数据从 Tesseract 输出,如下所示:
类型: 日期: 地址: 城市: 状态: 所有者: 业主类型: 面积: 抵押: 12345 2017-04-06 主街 100 号 某市 某州 约翰·多伊 基本的 10.25 是的
我们想要的是 Tesseract 水平读取 tiff 文件并让输出看起来像这样:
类型:12345 日期:2017-04-06 地址:主街 100 号 城市:某个城市 状态:某个状态 所有者:John Doe 业主类型:主要 种植面积:10.25 抵押:是的
我们尝试了 Tesseract 的各种页面分割选项,但它们都产生了相同的结果。
有人遇到过同样的问题吗?有人有什么想法吗?
【问题讨论】: