如何使用 Python 从手写的扫描 PDF 中提取数据？

【问题标题】：How can I extract data from a handwritten, scanned PDF using Python?如何使用 Python 从手写的扫描 PDF 中提取数据？
【发布时间】：2019-08-04 11:51:50
【问题描述】：

所以我有这些 PDF 是结构化反馈表的扫描副本。该表格有这些复选框和用于手写笔记的空格。我正在尝试从这些 PDF 中提取数据并将其保存到非结构化 CSV 文件中。现在使用 pytesseract 我能够获取打印的文本（通过首先将 PDF 转换为图像），但我无法捕获手写内容。有没有做的。我附上一个样本表格以供参考。

!https://imgur.com/a/2FYqWJf

【问题讨论】：

提取是一个问题，识别并保存到 csv 是另一个（比第一个大）。通过一些工作，您可以提取文本，但我不知道是否可以识别它。您可以尝试 Google/Amazon/Microsoft 提供的视觉 API，看看结果是否可以接受。如果不是，我认为不可能识别硬件数据。老实说，即使是人类也很难阅读生日和周年纪念形式的文字..

标签： python ocr python-tesseract handwriting-recognition

【解决方案1】：

PyTesseract 是一个 OCR 程序。它尚未经过训练或设计来识别笔迹。所以你有两个选择：1）重新训练它以进行手写（虽然这将非常耗时且复杂）2）使用另一个实际上用于识别手写而不是像这样的打印文本的库：https://docs.microsoft.com/en-us/azure/cognitive-services/computer-vision/quickstarts/python-hand-text

【讨论】：

使用预训练的库很难从图像中提取手写文本，因为每个人的手写体都是不同的。在这种情况下，我们需要训练我们的模型并使用它来提取文本。参考链接：towardsdatascience.com/…

猜你喜欢

1970-01-01
2018-11-05
1970-01-01
2018-04-18
2020-05-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01

相关资源

下载 2023-02-17
下载 2023-02-15
下载 2022-12-19

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode