【发布时间】:2020-01-21 16:19:32
【问题描述】:
我正在尝试在 .NET CORE 2.1 上使用 iText 7 阅读包含多页的 PDF 文件 以下是我的代码:
Rectangle rect = new Rectangle(0, 0, 1100, 1100);
LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
inputStr = PdfTextExtractor.GetTextFromPage(pdfDocument.GetPage(i), strategy);
inputStr 获取以下字符串:
"\u0011\v\u000e\u0012\u0011\v\f)(*).=*%'\f*).5?5.5*.\a \u0011\u0002\u001b\u0001!\u0016\u0012\u001a!\u0001\u0015\u001a \u0014\n\u0015\u0017\u0001(\u001b)\u0001)\u0016\u001c*\u0012\u0001\u001d\u001a \u0016* \u0015\u0001\u0017\u0016\u001b\u001a(\n,\u0002>&\u00...
在文本可视化器中,它看起来像这样:
)(*).=*%'*).5?5.5*. !!
())* * (
,>&2*06) 2.-=9 )=&,
2..*0.5<.?
.110
)<1,3
2.3*1>?)10/6
(& >(*,1=0>>*1?
2.63)&*,..*0.5
206)&13'?*9*<
*-5=0>
?*&..,?)..*0.5
我似乎无法解析编码,或者我无法读取/解析 PDF 级别的特定自定义编码。
任何想法如何正确解析文档?
谢谢 亚尼夫
【问题讨论】:
-
您好,您可以发布 PDF 进行分析吗?可能是文件中的问题或库中的错误
-
首先猜测一下,您在 Adobe Reader 中从 pdf 中复制和粘贴了什么?
-
@AlexeySubach 我无法发布 PDF,因为它包含敏感数据。我会尝试屏蔽敏感数据并发布。
-
@mkl 复制粘贴完美
-
在这种情况下,需要pdf进行进一步分析。