【发布时间】:2019-02-23 01:33:47
【问题描述】:
我需要从这个file 中提取类似格式的表中的数据。有一些 OCR 错误,但我有一个自动化的方法来纠正它们。
我试过了:
- ABBYY Finereader 表格检测。
- Tabula 表格提取
- Camelot 表提取
- 自定义pythoncode
问题:广告工具在检测桌子边缘方面非常糟糕。这些表格遵循类似的一般格式,但每次扫描的对齐方式略有不同,因此硬编码寄宿生也不起作用。
问题:你们知道检测表格从哪里开始然后应用几个模板之一的好方法吗?
非常感谢任何其他有关此类工作的提示。
【问题讨论】:
标签: pdf ocr data-extraction pdf-extraction python-camelot