用于检测 PDF 中文本页面更改的字符串拆分答案

【问题标题】：String split for detection of a text page change from PDF用于检测 PDF 中文本页面更改的字符串拆分
【发布时间】：2021-09-16 10:44:43
【问题描述】：

我正在尝试使用 itextsharp 库分析 PDF 文档...最终目的是读取所有文本并将其拆分为每一行。

为此，我使用读取文本的拆分功能...我在字符串 var 中有完整的文本。

 Dim RigheTesto As String()
 RigheTesto = testoEstrapolato.Split({vbCrLf, vbCr, vbLf}, StringSplitOptions.RemoveEmptyEntries)

拆分函数工作正常，我获得了一个字符串数组，如“数据类型：值”，原始文件中的每一行都有一个数组...

...但是当拆分遇到页面更改时（在原始PDF中）不明白是不同的行，它与上一个合并 ...

请问你知道怎么解决这个问题吗？

感谢您的宝贵时间！

【问题讨论】：

您需要在列表中添加另一个分隔符来表示分页符。那可能是ControlChars.FormFeed，也可能是别的东西。您可以分析文本以找出答案，或者在某处记录了 PDF 文件的一些标准。
如果这不可能，那么我认为 iTextSharp 可以单独为您提供页面，因此您可以从每一行中挑选行，然后将多个行列表合并到一个列表中。

标签： vb.net pdf split itext

【解决方案1】：

以下展示了如何使用 NuGet 包 iTextSharp（已使用 v5.5.13.2 测试）从 PDF 文件中提取文本。

下载/安装 NuGet 包 iTextSharp

创建一个类（名称：PdfPageInfo.vb）

Public Class PdfPageInfo
    Public Property PageNumber As Integer
    Public Property Lines As List(Of String) = New List(Of String)
End Class

创建模块（名称：HelperTextSharp.vb）

Imports iTextSharp.text.pdf
Imports iTextSharp.text.pdf.parser

Module HelperiTextSharp
    Public Function ExtractText(filename As String) As List(Of PdfPageInfo)
        Dim pageInfoList As List(Of PdfPageInfo) = New List(Of PdfPageInfo)

        Using reader As PdfReader = New PdfReader(filename)
            For i As Integer = 1 To reader.NumberOfPages Step 1

                'create new instance
                Dim pageInfo As PdfPageInfo = New PdfPageInfo()

                'set value
                pageInfo.PageNumber = i

                'get text from PDF page
                Dim pageText As String = PdfTextExtractor.GetTextFromPage(reader, i)

                'split on newline and set value
                pageInfo.Lines = pageText.Split(New String() {vbCrLf, vbCr, vbLf}, StringSplitOptions.RemoveEmptyEntries).ToList()

                'add 
                pageInfoList.Add(pageInfo)
            Next
        End Using

        Return pageInfoList
    End Function
End Module

用法：

Dim ofd As OpenFileDialog = New OpenFileDialog()
ofd.Filter = "PDF files(*.pdf)|*.pdf"

If ofd.ShowDialog = DialogResult.OK Then
    Dim pdfPageInfoList As List(Of PdfPageInfo) = HelperiTextSharp.ExtractText(ofd.FileName)

    For Each pInfo As PdfPageInfo In pdfPageInfoList
        Debug.WriteLine("Page Number: " & pInfo.PageNumber.ToString())

        For i As Integer = 0 To pInfo.Lines.Count - 1 Step 1
            Debug.WriteLine("[" & i & "]: " & pInfo.Lines(i))
        Next

        Debug.WriteLine("---------------------------------" & vbCrLf)
    Next
End If

资源：

How to read pdf file in C#? (Working example using iTextSharp)

【讨论】：

感谢大家的建议，感谢 vb.net 中的完整代码示例！！！明天我将把这种方式应用到我的代码中......我认为它会正确运行并可以解决我的问题......所以现在谢谢......稍后听到你的最终回复。
今天我完成了对你的代码的测试……它工作得很好！！！非常感谢你，你的帮助救了我！