AWS Textract 检测行而不是块答案

【问题标题】：AWS Textract detecting lines not blocksAWS Textract 检测行而不是块
【发布时间】：2020-10-23 18:53:00
【问题描述】：

我目前正在使用Amplify Framework for Android 及其预测插件，基本上是AWS Textract，将图像转换为文本。

以前，我使用的是Firebase 文本识别功能，它将文本分成块，并在每个块中分成行和单词。
另一方面，Textract 只将文本分成几行。

我使用的图像通常是屏幕截图，它们通常包含不止一列文本。因为现在我只得到行，所以我不知道如何将文本分成块。

有没有办法配置Textract 将文本首先分成块？或者有没有办法手动准确划分？

【问题讨论】：

【解决方案1】：

很遗憾，Textract 不提供阻止部分/段落功能。

文本检测返回 3 个主要对象：页面、行块和字块 [1]。

Line/Word 块的 JSON 响应对象中包含一个 Geometry 对象，它定义了一个边界框和多边形 [2]。为了达到您想要的结果，使用 Textract 响应数据，您必须根据您认为合适的几何数据对线块进行进一步处理。

【讨论】：