【问题标题】:How can I extract data from a handwritten, scanned PDF using Python?如何使用 Python 从手写的扫描 PDF 中提取数据?
【发布时间】:2019-08-04 11:51:50
【问题描述】:

所以我有这些 PDF 是结构化反馈表的扫描副本。该表格有这些复选框和用于手写笔记的空格。我正在尝试从这些 PDF 中提取数据并将其保存到非结构化 CSV 文件中。 现在使用 pytesseract 我能够获取打印的文本(通过首先将 PDF 转换为图像),但我无法捕获手写内容。有没有做的。 我附上一个样本表格以供参考。

!https://imgur.com/a/2FYqWJf

【问题讨论】:

  • 提取是一个问题,识别并保存到 csv 是另一个(比第一个大)。通过一些工作,您可以提取文本,但我不知道是否可以识别它。您可以尝试 Google/Amazon/Microsoft 提供的视觉 API,看看结果是否可以接受。如果不是,我认为不可能识别硬件数据。老实说,即使是人类也很难阅读生日和周年纪念形式的文字..

标签: python ocr python-tesseract handwriting-recognition


【解决方案1】:

PyTesseract 是一个 OCR 程序。它尚未经过训练或设计来识别笔迹。所以你有两个选择:1)重新训练它以进行手写(虽然这将非常耗时且复杂)2)使用另一个实际上用于识别手写而不是像这样的打印文本的库:https://docs.microsoft.com/en-us/azure/cognitive-services/computer-vision/quickstarts/python-hand-text

【讨论】:

  • 使用预训练的库很难从图像中提取手写文本,因为每个人的手写体都是不同的。在这种情况下,我们需要训练我们的模型并使用它来提取文本。参考链接:towardsdatascience.com/…
猜你喜欢
  • 1970-01-01
  • 2018-11-05
  • 1970-01-01
  • 2018-04-18
  • 2020-05-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多