【问题标题】:Can I digitalize a dictionary?我可以数字化字典吗?
【发布时间】:2011-03-22 15:25:25
【问题描述】:

我在 PDF 中找到了一个公共领域的拉丁语葡萄牙语词典,我想将其转换为纯文本、解析并用作程序的数据库。然而,经过一些测试,我有点怀疑。看看original fileresulting text of gocr。有没有希望我可以通过某种方法达到 99% 以上的准确率?我想到了 reCaptcha 的数据库,但我猜它是 Google 的财产,不是吗?

谢谢!

【问题讨论】:

  • 字典本身有低质量的字符。您将必须进行认真的培训,即使那样,您也必须通过它进行更正。根据这篇文章 (splitbrain.org/blog/2010-06/15-linux_ocr_software_comparison),tesseract 可能更适合你。尽管最重要的是更清洁的扫描。
  • 您是否有任何理由想要扫描这本词典,而不是仅仅使用 WordNet 等现有资源?
  • 因为它是一本拉丁文葡萄牙文字典,而不是英文字典!
  • tesseract的输出,虽然还不够完美,但确实好很多! 500f31248c1dd135.paste.se

标签: artificial-intelligence nlp computer-vision ocr


【解决方案1】:

另一种方法是使用免费提供的字典文件之一,例如http://www.brothersoft.com/downloads/dictionary-database.html

【讨论】:

    【解决方案2】:

    WordNet

    编辑:我刚刚发现这是一本拉丁语/葡萄牙语词典,所以 WordNet 显然不好。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多