aws textract - 按段落分组输出行答案

【问题标题】：aws textract - Group output lines by parragraphaws textract - 按段落分组输出行
【发布时间】：2021-06-19 16:36:12
【问题描述】：

我已经开始尝试使用aws-textract，特别是detect-document-text（文档：https://docs.aws.amazon.com/textract/latest/dg/detecting-document-text.html）。例如，图片内容是：

This is the first line
should continue here.

This is the second line.

detect-document-text 输出，返回一个JSON，其中每个BlockType 节点是WORD、LINE 或PAGE（附加了一些其他元素，例如Relationships，其中定义了@ 987654332@ 和Id 的列表、Geometry 信息（坐标）、Confidence 等）。在这种情况下，输出将包含每一行的BlockType (LINE)（如预期的那样），如下所示：

{
...
  {
    ...
    "BlockType": "LINE",
    "Confidence": 97.8960189819336,
    "Text": "This is the first line",
    ...
  },
  {
    ...
    "BlockType": "LINE",
    "Confidence": 97.8960189819336,
    "Text": "should continue here.",
   ...
  },
  {
    ...
    "BlockType": "LINE",
    "Confidence": 97.8960189819336,
    "Text": "This is the second line.",
   ...
  },
  ...
}

我的问题是下一个，是否有一个可以被覆盖的参数（例如行或单元格的跨度值以通过“句子”保持单个节点）或一种按段落分组行的选项（基于计算坐标）以得到完整的句子？或者这是来自客户端的强制性后处理？想知道，这似乎是一种常见的情况，因此尝试使用textract 输出JSON 来查找textract 或其他aws 服务是否已经提供了它。

【问题讨论】：

标签： amazon-web-services ocr aws-cli amazon-textract

【解决方案1】：

正如 syumaK 的回答中所述，Textstract API 不支持此功能。考虑使用替代服务，例如 Google Vision API，它通常会为您提供整个段落，而不仅仅是行。

或者，考虑文本在页面上的正常布局方式。同一段落的行部分往往具有相似的宽度和相似的高度，它们将共享相似的左、中或右 x 位置，具体取决于所使用的对齐方式，并且通常 y 方向上的行之间的间隔会更小超过线高的 2 倍。您可以一次将搜索限制为单个页面。可能会受益于构建像 r-tree 这样的空间搜索索引来提高页面搜索速度。

抱歉，没有代码，但这应该构成一个很好的框架，用于构建线块聚合函数。

【讨论】：

【解决方案2】：

查看Textract DetectDocumentText API，请求语法只接受 Document & S3Object 作为参数

 {
  "Document": { 
  "Bytes": blob,
  "S3Object": { 
     "Bucket": "string",
     "Name": "string",
     "Version": "string"
   }
 }
}

也就是说，没有其他参数可用于 API 将 JSON 输出转换为按段落分组行

如果您希望处理输出以便按段落对行进行分组，您将需要构建自己的逻辑。

希望这会有所帮助！

【讨论】：

如果有代码，请告诉我！