【发布时间】:2012-10-01 13:24:16
【问题描述】:
我正在寻找从 pdf 中删除/删除所有文本的解决方案。我已经使用 iTextSharp 有一段时间了,使用它从 pdf 中提取文本很容易(不使用 OCR)。但是我找不到删除文本的选项。
This solution 坦率地说对我不起作用。
page.GetAsArray(PdfName.CONTENTS);
为我返回 null,在使用 PdfName.Text 和我尝试过的其他一些时也是如此。
使用的库并不重要,我只是认为 iTextsharp 应该能够做到这一点。但是,如果有其他(免费)解决方案,请带上它
编辑:只是为了弄清楚我为什么要从 pdf 中删除所有文本
我想减小 pdf 的大小。我通过降低 pdf 中图像的分辨率来做到这一点。然而,在很多情况下,矢量图占据了大部分空间。所以我想到了以下几点: 删除所有文本,而不是将剩余的 pdf(仅包含图像和矢量)转换为位图 (jpeg)。之后,我再次将文本粘贴在上面。 另一种选择是使文本不可见,但我认为这并不容易。
【问题讨论】:
-
澄清一下,您正试图从 pdf 中删除文本,但保留图像原样?
-
进一步澄清:您想删除所有可识别文本的痕迹,所以取而代之的是白色区域?或者您想将包含字体的文本转换为小的光栅图像,以便复制'n'粘贴相同的文本不再起作用(但阅读它仍然有效)?或者,将完整的 PDF 页面转换为一个光栅图像(而不是一组矢量对象),这样 copy'n'paste 不再起作用?
-
我的目标是从 pdf 中完全删除所有文本(不是位图),其余部分保持原样。
标签: c# pdf itextsharp