微软计算机视觉 OCR - 拼凑来自区域的线条答案

【问题标题】：Microsoft Computer Vision OCR - Piecing Together Lines From Regions微软计算机视觉 OCR - 拼凑来自区域的线条
【发布时间】：2018-05-30 16:27:59
【问题描述】：

我正在尝试使用 Microsoft 的计算机视觉 OCR API 从图像上的表格中获取信息。我遇到的问题是返回的数据通常有各种各样的 qwerky 区域，我试图将所有区域拼凑在一起以获得完整的可读和可解析文本行。

我认为有意义的唯一方法是使用方向旋转边界框坐标并检查哪些“线”在另一个给定边界框高度的给定百分比范围内 - 可能是 20% 或所以。

这实际上是我迄今为止想到的唯一方法，我开始认为我已经过度复杂化了；人们倾向于建立 OCR 区域以获得可读文本的标准方法吗？

【问题讨论】：

【解决方案1】：

没有这样的标准方法。但是，根据要求，人们确实会选择 REGEX。 Azure OCR 将 JSON 响应作为单词及其边界框返回。从那里开始，由您来解释结果。 ocr api 对这项任务没有帮助。

首先，正则表达式是解析文本数据的好方法。或者尝试这个 reddit 帖子中描述的机器学习方法：https://www.reddit.com/r/MachineLearning/comments/53ovp9/extracting_a_total_cost_from_ocr_paper_receipt/

【讨论】：