【问题标题】:PDF document language detectionPDF文档语言检测
【发布时间】:2012-03-30 21:41:52
【问题描述】:

有没有办法获取PDF文档的文本语言?

示例: 假设我有一些我不知道语言的 PDF 文档,是否有任何工具可以让我自动获取 PDF 文档语言并在文件中存储(或 ECHO)语言名称?

问候, 沃洛迪米尔

【问题讨论】:

    标签: .net pdf


    【解决方案1】:

    基本上没有。 PDF 文件中没有任何内容可以保证告诉您所使用的语言,而且从文件中获取任何简单的内容肯定会有所帮助。

    如果文件使用 CIDfonts,则关联的 CMap可能通过 CIDSystemInfo 中的 Ordering 键为您提供线索,但这通常只是 'Identity' 的变体。

    如果字体(CID 或常规)包含 ToUnicode CMap(很多都包含,但这不是必需的),那么您可能能够从 Unicode 值推断语言。

    【讨论】:

    • 当然,PDF 可以附加指定文档语言的元数据。正确标记的 PDF 将包含此信息。
    【解决方案2】:
    【解决方案3】:

    如果您从 PDF 中提取文本,您可以使用Google Translate API v2 来检测语言。不过,这是一项付费网络服务。

    【讨论】:

    • 如果我要使用tesseract 之类的工具获取文本的ocr,我首先需要语言,有什么我可以做的吗?
    猜你喜欢
    • 2010-09-22
    • 1970-01-01
    • 1970-01-01
    • 2021-10-03
    • 1970-01-01
    • 2019-10-08
    • 1970-01-01
    • 2011-12-30
    • 2013-06-29
    相关资源
    最近更新 更多