【发布时间】:2009-07-03 11:18:06
【问题描述】:
我想编写一个可以利用 Adobe Acrobat 中的 OCR 功能的 C# 应用程序。我怎么能这样称呼?有公共 API 吗?
【问题讨论】:
我想编写一个可以利用 Adobe Acrobat 中的 OCR 功能的 C# 应用程序。我怎么能这样称呼?有公共 API 吗?
【问题讨论】:
我相信这是 Adobe Reader 软件的一部分,无法通过 API 访问。有一个 API 和库用于根据格式规范构建 PDF 文档,但 OCR 是与读者有关的东西,而不是格式。恐怕您要么必须使用另一个库,要么自己实现它。
【讨论】:
没有适用于 .net 的直接 Adobe OCR API。但是,对于您要实现的目标,有一些替代方案。 Google 的开源 Tesseract OCR 有一个开源的 .Net 包装器,可以在 GitHub 上找到:https://github.com/charlesw/tesseract。这应该让您在 C# 中具有 OCR 功能。
来自文档:
快速入门
- 通过从Package Manager Console 运行
Install-Package Tesseract添加TesseractNuGet 包。- 确保您已安装 Visual Studio 2012 x86 和 x64 运行时
- 从tesseract-ocr 下载 tesseract 3.02 的语言数据文件并将它们添加到您的项目中,确保“复制到 输出目录”设置为始终。
- 查看示例解决方案
~/Samples/Tesseract.Samples.sln以获取工作示例
【讨论】: