PDF文档语言检测答案

【问题标题】：PDF document language detectionPDF文档语言检测
【发布时间】：2012-03-30 21:41:52
【问题描述】：

有没有办法获取PDF文档的文本语言？

示例：假设我有一些我不知道语言的 PDF 文档，是否有任何工具可以让我自动获取 PDF 文档语言并在文件中存储（或 ECHO）语言名称？

问候，沃洛迪米尔

【问题讨论】：

标签： .net pdf

【解决方案1】：

基本上没有。 PDF 文件中没有任何内容可以保证告诉您所使用的语言，而且从文件中获取任何简单的内容肯定会有所帮助。

如果文件使用 CIDfonts，则关联的 CMap可能通过 CIDSystemInfo 中的 Ordering 键为您提供线索，但这通常只是 'Identity' 的变体。

如果字体（CID 或常规）包含 ToUnicode CMap（很多都包含，但这不是必需的），那么您可能能够从 Unicode 值推断语言。

【讨论】：

【解决方案2】：

谢谢！

【讨论】：

【解决方案3】：

如果您从 PDF 中提取文本，您可以使用Google Translate API v2 来检测语言。不过，这是一项付费网络服务。

【讨论】：