【问题标题】:aws textract - Group output lines by parragraphaws textract - 按段落分组输出行
【发布时间】:2021-06-19 16:36:12
【问题描述】:

我已经开始尝试使用aws-textract,特别是detect-document-text(文档:https://docs.aws.amazon.com/textract/latest/dg/detecting-document-text.html)。 例如,图片内容是:

This is the first line
should continue here.

This is the second line.

detect-document-text 输出,返回一个JSON,其中每个BlockType 节点是WORDLINEPAGE(附加了一些其他元素,例如Relationships,其中定义了@ 987654332@ 和Id 的列表、Geometry 信息(坐标)、Confidence 等)。在这种情况下,输出将包含每一行的BlockType (LINE)(如预期的那样),如下所示:

{
...
  {
    ...
    "BlockType": "LINE",
    "Confidence": 97.8960189819336,
    "Text": "This is the first line",
    ...
  },
  {
    ...
    "BlockType": "LINE",
    "Confidence": 97.8960189819336,
    "Text": "should continue here.",
   ...
  },
  {
    ...
    "BlockType": "LINE",
    "Confidence": 97.8960189819336,
    "Text": "This is the second line.",
   ...
  },
  ...
}

我的问题是下一个,是否有一个可以被覆盖的参数(例如行或单元格的跨度值以通过“句子”保持单个节点)或一种按段落分组行的选项(基于计算坐标)以得到完整的句子?或者这是来自客户端的强制性后处理?想知道,这似乎是一种常见的情况,因此尝试使用textract 输出JSON 来查找textract 或其他aws 服务是否已经提供了它。

【问题讨论】:

    标签: amazon-web-services ocr aws-cli amazon-textract


    【解决方案1】:

    正如 syumaK 的回答中所述,Textstract API 不支持此功能。考虑使用替代服务,例如 Google Vision API,它通常会为您提供整个段落,而不仅仅是行。

    或者,考虑文本在页面上的正常布局方式。同一段落的行部分往往具有相似的宽度和相似的高度,它们将共享相似的左、中或右 x 位置,具体取决于所使用的对齐方式,并且通常 y 方向上的行之间的间隔会更小超过线高的 2 倍。您可以一次将搜索限制为单个页面。可能会受益于构建像 r-tree 这样的空间搜索索引来提高页面搜索速度。

    抱歉,没有代码,但这应该构成一个很好的框架,用于构建线块聚合函数。

    【讨论】:

      【解决方案2】:

      查看Textract DetectDocumentText API,请求语法只接受 Document & S3Object 作为参数

       {
        "Document": { 
        "Bytes": blob,
        "S3Object": { 
           "Bucket": "string",
           "Name": "string",
           "Version": "string"
         }
       }
      }
      

      也就是说,没有其他参数可用于 API 将 JSON 输出转换为按段落分组行

      如果您希望处理输出以便按段落对行进行分组,您将需要构建自己的逻辑。

      希望这会有所帮助!

      【讨论】:

      • 如果有代码,请告诉我!
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-09-18
      • 2020-01-17
      相关资源
      最近更新 更多