【发布时间】:2019-08-04 11:51:50
【问题描述】:
所以我有这些 PDF 是结构化反馈表的扫描副本。该表格有这些复选框和用于手写笔记的空格。我正在尝试从这些 PDF 中提取数据并将其保存到非结构化 CSV 文件中。 现在使用 pytesseract 我能够获取打印的文本(通过首先将 PDF 转换为图像),但我无法捕获手写内容。有没有做的。 我附上一个样本表格以供参考。
【问题讨论】:
-
提取是一个问题,识别并保存到 csv 是另一个(比第一个大)。通过一些工作,您可以提取文本,但我不知道是否可以识别它。您可以尝试 Google/Amazon/Microsoft 提供的视觉 API,看看结果是否可以接受。如果不是,我认为不可能识别硬件数据。老实说,即使是人类也很难阅读生日和周年纪念形式的文字..
标签: python ocr python-tesseract handwriting-recognition