【发布时间】:2011-03-22 15:25:25
【问题描述】:
我在 PDF 中找到了一个公共领域的拉丁语葡萄牙语词典,我想将其转换为纯文本、解析并用作程序的数据库。然而,经过一些测试,我有点怀疑。看看original file 和resulting text of gocr。有没有希望我可以通过某种方法达到 99% 以上的准确率?我想到了 reCaptcha 的数据库,但我猜它是 Google 的财产,不是吗?
谢谢!
【问题讨论】:
-
字典本身有低质量的字符。您将必须进行认真的培训,即使那样,您也必须通过它进行更正。根据这篇文章 (splitbrain.org/blog/2010-06/15-linux_ocr_software_comparison),tesseract 可能更适合你。尽管最重要的是更清洁的扫描。
-
您是否有任何理由想要扫描这本词典,而不是仅仅使用 WordNet 等现有资源?
-
因为它是一本拉丁文葡萄牙文字典,而不是英文字典!
-
tesseract的输出,虽然还不够完美,但确实好很多! 500f31248c1dd135.paste.se
标签: artificial-intelligence nlp computer-vision ocr