【问题标题】:Tesseract: Getting word confidence (x_wconf) in hOCR fileTesseract:在 hOCR 文件中获取单词置信度 (x_wconf)
【发布时间】:2013-09-23 11:21:50
【问题描述】:

我目前正在使用 Java 通过命令行调用 Tesseract,输出模式设置为 hOCR。我几乎不知道任何与 C 编程相关的东西,虽然我可以阅读源代码,但仅此而已。

我希望能够获得 hOCR 文件中的单词置信度信息。我在网上找到了一些“答案”。从在设置文件中设置值到更改和重新编译源代码。

我正在使用最新版本的 Tesseract,如何从 Java 中获取信心 (x_wconf) 这个词?

【问题讨论】:

  • 请编辑您的问题,在评论中添加您真正想要的内容:9 月 25 日 9:24

标签: java ocr tesseract


【解决方案1】:

hOCR 是 HTML,因此您需要一个 HTML 解析器来提取您想要的属性。试试jsoupHtmlCleanerHTML Parser

【讨论】:

  • 最新的 Tesseract 版本(3.02)的 hOCR 输出中没有 x_wconf 值,我昨天确实设法安装了 3.01 并找到了该值,但它似乎对我的应用程序没有用。
  • 我刚刚验证了 x_wconf 值是否存在于 tesseract 3.02.03 的 hocr 输出中。为什么它在您的应用中没有用?
  • 因为它列出了对字典的置信度。我实际上是在寻找对角色视觉表现的信心。由于笔迹的可信度应该很低,我想从发票中过滤掉笔迹,以便能够识别它们。
猜你喜欢
  • 1970-01-01
  • 2016-03-18
  • 2018-10-03
  • 2014-01-21
  • 1970-01-01
  • 1970-01-01
  • 2013-03-27
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多