如何转换使用嵌入字体c#的pdf文本答案

【问题标题】：How to convert pdf text that uses embedded fonts c#如何转换使用嵌入字体c#的pdf文本
【发布时间】：2012-03-21 18:04:14
【问题描述】：

我正在使用 iTextSharp 将 pdf 文件转换为文本，但是我发现如果 PDF 具有嵌入的字体或 OpenType 字体，我无法从 PDF 中获取文本。有解决方案吗？我只需要转换为文本。任何帮助表示赞赏。谢谢！

【问题讨论】：

标签： c# pdf

【解决方案1】：

作为每月处理来自各种不同客户的数千个随机 PDF 的人，根据我的经验，XpdfText 是迄今为止提取文本的最佳库。我们还将 iTextSharp 用于各种任务，但还没有发现它在提取文本方面几乎一样好。

【讨论】：

好的调用，但重要的是要注意会有错误。没有完美的 OCR 库。
这不是使用 OCR。只要嵌入了字体，就可以提取源文本。仅当 PDF 包含仅作为字形嵌入的非系统字体或文本以图像形式嵌入时，才需要 OCR。
谢谢马克！我相信这就是我正在寻找的。他们的网站上没有试用版下载，希望我可以在购买前试一试。
如果 pdf 嵌入了字体，这一个也会返回难以辨认的字符。我想知道 OCR 是否最终会成为答案，只需要找到一个可靠的库。这会很痛苦，但也许我需要转换为图像，然后以这种方式获取文本。
您确定 PDF 包含您正在查看的文本的嵌入字体吗？在未嵌入字体的情况下，您会得到块状/奇怪的字符。嵌入字体用于将视觉显示映射到可复制的字符，而不是实际显示的字体。

【解决方案2】：

简答

很可能生成的文件没有足够的信息来正确提取文本。

【讨论】：