【问题标题】:How to convert pdf text that uses embedded fonts c#如何转换使用嵌入字体c#的pdf文本
【发布时间】:2012-03-21 18:04:14
【问题描述】:

我正在使用 iTextSharp 将 pdf 文件转换为文本,但是我发现如果 PDF 具有嵌入的字体或 OpenType 字体,我无法从 PDF 中获取文本。有解决方案吗?我只需要转换为文本。任何帮助表示赞赏。谢谢!

【问题讨论】:

    标签: c# pdf


    【解决方案1】:

    作为每月处理来自各种不同客户的数千个随机 PDF 的人,根据我的经验,XpdfText 是迄今为止提取文本的最佳库。我们还将 iTextSharp 用于各种任务,但还没有发现它在提取文本方面几乎一样好。

    【讨论】:

    • 好的调用,但重要的是要注意会有错误。没有完美的 OCR 库。
    • 这不是使用 OCR。只要嵌入了字体,就可以提取源文本。仅当 PDF 包含仅作为字形嵌入的非系统字体或文本以图像形式嵌入时,才需要 OCR。
    • 谢谢马克!我相信这就是我正在寻找的。他们的网站上没有试用版下载,希望我可以在购买前试一试。
    • 如果 pdf 嵌入了字体,这一个也会返回难以辨认的字符。我想知道 OCR 是否最终会成为答案,只需要找到一个可靠的库。这会很痛苦,但也许我需要转换为图像,然后以这种方式获取文本。
    • 您确定 PDF 包含您正在查看的文本的嵌入字体吗?在未嵌入字体的情况下,您会得到块状/奇怪的字符。嵌入字体用于将视觉显示映射到可复制的字符,而不是实际显示的字体。
    【解决方案2】:

    简答

    很可能生成的文件没有足够的信息来正确提取文本。

    请查看我的longer answer 以获得somewhat related question

    【讨论】:

      猜你喜欢
      • 2018-02-27
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-09-11
      • 2010-12-19
      • 2010-12-29
      • 2010-10-18
      • 2018-09-05
      相关资源
      最近更新 更多