我可以数字化字典吗？

【问题标题】：Can I digitalize a dictionary?我可以数字化字典吗？
【发布时间】：2011-03-22 15:25:25
【问题描述】：

我在 PDF 中找到了一个公共领域的拉丁语葡萄牙语词典，我想将其转换为纯文本、解析并用作程序的数据库。然而，经过一些测试，我有点怀疑。看看original file 和resulting text of gocr。有没有希望我可以通过某种方法达到 99% 以上的准确率？我想到了 reCaptcha 的数据库，但我猜它是 Google 的财产，不是吗？

谢谢！

【问题讨论】：

字典本身有低质量的字符。您将必须进行认真的培训，即使那样，您也必须通过它进行更正。根据这篇文章 (splitbrain.org/blog/2010-06/15-linux_ocr_software_comparison)，tesseract 可能更适合你。尽管最重要的是更清洁的扫描。
您是否有任何理由想要扫描这本词典，而不是仅仅使用 WordNet 等现有资源？
因为它是一本拉丁文葡萄牙文字典，而不是英文字典！
tesseract的输出，虽然还不够完美，但确实好很多！ 500f31248c1dd135.paste.se

标签： artificial-intelligence nlp computer-vision ocr

【解决方案1】：

另一种方法是使用免费提供的字典文件之一，例如http://www.brothersoft.com/downloads/dictionary-database.html

【讨论】：

【解决方案2】：

编辑：我刚刚发现这是一本拉丁语/葡萄牙语词典，所以 WordNet 显然不好。

【讨论】：

猜你喜欢

1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01

相关资源

下载 2022-12-02
下载 2023-04-10
下载 2023-01-31
下载 2021-06-05

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode