【发布时间】:2011-05-24 16:45:36
【问题描述】:
我可以在我的 ASP.net 应用程序中使用 PDFBOX 读取 pdf 文件,但它没有为表格中的空单元格添加空间,那么如何在 C# 中使用 PDFBOX 从 pdf 文件中读取空字段。有没有其他方法可以读取pdf文件。
谢谢。
【问题讨论】:
我可以在我的 ASP.net 应用程序中使用 PDFBOX 读取 pdf 文件,但它没有为表格中的空单元格添加空间,那么如何在 C# 中使用 PDFBOX 从 pdf 文件中读取空字段。有没有其他方法可以读取pdf文件。
谢谢。
【问题讨论】:
如果您提前知道文本应该的确切位置,并且可以在提取时获取文本的位置,那么您可能能够完成这种事情它。
如果您事先不知道行和单元格的位置,则必须根据文本位置进行猜测。这并不容易。
一般来说,不建议从 PDF 中提取数据。 PDF 没有“表格”的概念(除非 PDF 创建者很好地使用“标记内容”,这仍然很少见)。 PDF 有线条、字形和图像(一堆像素)。从这些信息中提取格式非常困难……有时几乎是不可能的。
我不知道 PDFBox 是否会给你提取文本的位置,但 iTextSharp 会。
【讨论】: