【发布时间】:2012-03-30 21:41:52
【问题描述】:
有没有办法获取PDF文档的文本语言?
示例: 假设我有一些我不知道语言的 PDF 文档,是否有任何工具可以让我自动获取 PDF 文档语言并在文件中存储(或 ECHO)语言名称?
问候, 沃洛迪米尔
【问题讨论】:
有没有办法获取PDF文档的文本语言?
示例: 假设我有一些我不知道语言的 PDF 文档,是否有任何工具可以让我自动获取 PDF 文档语言并在文件中存储(或 ECHO)语言名称?
问候, 沃洛迪米尔
【问题讨论】:
基本上没有。 PDF 文件中没有任何内容可以保证告诉您所使用的语言,而且从文件中获取任何简单的内容肯定会有所帮助。
如果文件使用 CIDfonts,则关联的 CMap可能通过 CIDSystemInfo 中的 Ordering 键为您提供线索,但这通常只是 'Identity' 的变体。
如果字体(CID 或常规)包含 ToUnicode CMap(很多都包含,但这不是必需的),那么您可能能够从 Unicode 值推断语言。
【讨论】:
如果您从 PDF 中提取文本,您可以使用Google Translate API v2 来检测语言。不过,这是一项付费网络服务。
【讨论】:
tesseract 之类的工具获取文本的ocr,我首先需要语言,有什么我可以做的吗?