【问题标题】:Scan and read a document with tick boxes使用复选框扫描和阅读文档
【发布时间】:2013-05-15 08:28:50
【问题描述】:

我有一个客户的请求,他希望为不同地区的老年人提供膳食。为此,人们填写一周的表格,并根据他们每天的选择打勾(它还考虑了具体要求)。

例如:

 Name
 Commune

                  With salt ( )      Without salt []

Mon :       Meal 1 ( )                   Meal 2 ( )
           Dessert 1 ( )                 Dessert ( )

Tues :       Meal 1 ( )                   Meal 2 ( )
           Dessert 1 ( )                 Dessert ( )

然后应该汇总每张表中的数据,以告诉我们每天为每个社区准备多少每种类型的饭菜...

表格都是一样的,所以我希望能够扫描它们并自动阅读它们。

我不知道有什么软件可以让我这样做。完成这项任务的最佳方法是什么?目前我正在研究 tesseract,但也许有一些更简单的技术?

编辑:我们每周讨论数百种表格。理想情况下,我们将同时扫描它们,提取数据并以电子方式存储表格。

【问题讨论】:

    标签: ocr


    【解决方案1】:

    您不是在寻找 OCR,这意味着读取机器打印的字符。您正在寻找 ICR/OMR 软件,也称为表单处理或数据采集。 OMR 代​​表光学标记识别,这是您尝试做的,识别复选标记/复选框的值。

    关于手写识别的更多信息在这里: ICR for machine printed text?

    因为您的表单是相同的,这意味着您的表单属于“固定表单”类别,并且基于模板的软件包可以处理这些表单。这是一个简短的文档,解释了表单类型之间的差异: www.wisetrend.com/files/Structured_vs_Semi-Structured.pdf

    您的空白表单本身也应该针对机器识别进行适当设计。它应该有参考标记以更好地对齐模板、清晰的流程以便用户知道如何自然填写、适当大小的复选框等。

    我相信 FlexiCapture 会满足您的所有需求:link。至少有几个其他解决方案可以执行类似的过程。我是纸质表单处理项目的集成商/顾问。

    我删除了您的“移动”标签,因为我相信您不打算使用手机拍摄这些图像。如果您是,如果您有其他选择,我会建议您不要这样做。您提到在传统扫描仪上扫描它们,这是获得良好图像质量的最佳选择。相信我,在处理人工手写表单时,您将有足够的时间来处理,因此请尽可能优化您的表单、扫描、软件和流程。

    如果您有兴趣自己开发,这是可能的。该过程是将图像区域(每个复选标记)与某个“基线”进行比较,以查看该区域是否有额外的手写内容。如果超过某个阈值,则已选中复选标记。典型问题是区域对齐和边界阈值水平(小/浅刻度线)。商业包会自动处理。

    如果您需要任何其他指导,请告诉我。

    伊利亚·埃夫多基莫夫

    【讨论】:

    • 谢谢,很棒的答案。我们先看看商业软件,如果有必要我可以开发一些定制的东西。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2016-03-23
    • 2013-11-05
    • 1970-01-01
    • 2021-11-20
    • 2018-11-14
    • 2015-07-01
    • 2016-03-16
    相关资源
    最近更新 更多