【发布时间】:2021-09-16 10:44:43
【问题描述】:
我正在尝试使用 itextsharp 库分析 PDF 文档...最终目的是读取所有文本并将其拆分为每一行。
为此,我使用读取文本的拆分功能...我在字符串 var 中有完整的文本。
Dim RigheTesto As String()
RigheTesto = testoEstrapolato.Split({vbCrLf, vbCr, vbLf}, StringSplitOptions.RemoveEmptyEntries)
拆分函数工作正常,我获得了一个字符串数组,如“数据类型:值”,原始文件中的每一行都有一个数组...
...但是当拆分遇到页面更改时(在原始PDF中)不明白是不同的行,它与上一个合并 ...
请问你知道怎么解决这个问题吗?
感谢您的宝贵时间!
【问题讨论】:
-
您需要在列表中添加另一个分隔符来表示分页符。那可能是
ControlChars.FormFeed,也可能是别的东西。您可以分析文本以找出答案,或者在某处记录了 PDF 文件的一些标准。 -
如果这不可能,那么我认为 iTextSharp 可以单独为您提供页面,因此您可以从每一行中挑选行,然后将多个行列表合并到一个列表中。