【发布时间】:2021-05-19 23:37:59
【问题描述】:
AFR 新手,请原谅愚蠢的问题。我们是图书出版商,有时根本没有特定的格式布局,因为不同的作者即使对同一主题也有偏好,例如食谱。但是,它们都被包装在一个页面中。
所以我的问题是有通用布局可用,所以我们不需要进行培训?这样,我们将利用boundingBox 来重构布局并将它们拼凑在一起。一个样本的 URL 会很棒。谢谢
【问题讨论】:
标签: form-recognizer
AFR 新手,请原谅愚蠢的问题。我们是图书出版商,有时根本没有特定的格式布局,因为不同的作者即使对同一主题也有偏好,例如食谱。但是,它们都被包装在一个页面中。
所以我的问题是有通用布局可用,所以我们不需要进行培训?这样,我们将利用boundingBox 来重构布局并将它们拼凑在一起。一个样本的 URL 会很棒。谢谢
【问题讨论】:
标签: form-recognizer
是的,您可以使用表单识别器布局从书中提取文本和表格并分析页面。您可以使用示例工具 UX 进行尝试 - 选择布局,
或使用 API - https://{endpoint}/formrecognizer/v2.1-preview.3/layout/analyze?readingOrder=natural
请参阅此处了解更多信息 - https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/concept-layout
如果页面有不同的列或不同分组中的其他文本将按阅读顺序提取,则使用自然阅读顺序获取按阅读顺序提取的文本。
【讨论】: