【发布时间】:2015-05-12 10:43:16
【问题描述】:
我目前使用 iTextSharp 读取一些 PDF 文件并使用我收到的字符串解析它们。我遇到了一些 PDF 文件的奇怪行为。例如,当获取 4 页 PDF 的字符串时,字符串按以下顺序填充页面:
1 2 1 3 1 4
我读取文件的代码如下:
using (PdfReader reader = new PdfReader(fileStream))
{
StringBuilder sb = new StringBuilder();
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
for (int page = 0; page < reader.NumberOfPages; page++)
{
string text = PdfTextExtractor.GetTextFromPage(reader, page + 1, strategy);
if (!string.IsNullOrWhiteSpace(text))
sb.Append(Encoding.UTF8.GetString(Encoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(text))));
}
Debug.WriteLine(sb.ToString());
}
这是一个指向发生此行为的文件的链接:
希望大家能帮帮我!
【问题讨论】:
-
我没有给你答案,但我可以告诉你,完成所有转码的那一行实际上是不正确的(尽管互联网上的大多数示例似乎仍在使用它)并且会非常崩溃容易地。有关更多详细信息,请参阅this post,但基本上,
text是一个 100% 完美的 .Net 字符串,当您从 PDF 中得到它时,保证。最好的情况是,转码什么都不做,最坏的情况是你会把文本变成乱码。 -
当我创建样本时,我一直在看这条线并想了很多,但因为它是这么多样本的一部分,所以我把它留了下来供参考。虽然我改变了它,但它没有任何区别。
-
另一件事是文本提取策略通常不打算重复使用(除非您有特定的理由)。这样做的原因是他们没有明确的“新页面”命令来擦除他们的内部状态。通过重用该对象,您实际上是在“附加模式”下工作。不要在循环之外实例化它,而是每次尝试创建一个新的
var text = PdfTextExtractor.GetTextFromPage(reader, page + 1, new SimpleTextExtractionStrategy()); -
正如@ChrisHaas 所说,通过重用策略,您可以将所有页面的内容添加到策略中。因此,您的
StringBuilder最终不应仅包含 1 2 1 3 1 4 而是包含 1 1 2 1 2 3 1 2 3 4。
标签: itextsharp