【发布时间】:2018-12-21 12:57:05
【问题描述】:
我正在使用 tesseract(通过 python 包装器)从文档中提取文本。这些文档不包含任何图像或表格,仅包含文本。
是否有任何选项可以将标题/标题与文本区分开来?理想情况下,我希望能够拥有类似 xml 树而不是完整的字符串链(我不需要查看文档布局)。
我发现了一些 third party tools 似乎可以提供帮助,但我想知道我是否可以直接从 tesseract 中做到这一点。
【问题讨论】:
-
您的问题解决了吗?
-
不,抱歉。我必须找到一个替代解决方案。但我很想找到这个特定问题的解决方案。
-
我也有同样的情况。您能否说明一下您的替代解决方案。谢谢。
-
如果文档遵循语法信息,为什么不使用正则表达式解析文本以查找标题。例如:罗蒙字母后跟句子是标题。一种基于规则的提取。
标签: python opencv ocr tesseract python-tesseract