【问题标题】:how to convert pdf to text files n vb.net如何将pdf转换为文本文件n vb.net
【发布时间】:2016-08-23 09:50:50
【问题描述】:

请帮助 mi 伙计们,我正在尝试使用 vb.net 桌面应用程序将 pdf 文件转换为文本, 我访问了许多网站,但他们提供了试用版软件 有什么解决方案可以解决这个问题吗?

我的页面流程是这样的: 1) 用户从文件浏览器中选择 .PDF 文件 2)然后只需单击“转换为文本文件”按钮 3)它将从路径中打开相应的.POF文件并将其转换为.TXT文件并保存到特定位置

【问题讨论】:

  • 我很好奇您将如何转换包含一些图像或一些花哨字体的 PDF?
  • 该 pdf 中没有图像或一些花哨的字体,它只是一个包含文本的简单 pdf

标签: sql-server vb.net


【解决方案1】:

通过包含此参考

pdfbox-1.8.9.dll
commons-logging.dll
fontbox-1.8.9.dll
IKVM.OpenJDK.Text.dll
IKVM.OpenJDK.Util.dll
IKVM.Runtime.dll
IKVM.OpenJDK.Core.dll
IKVM.OpenJDK.SwingAWT.dll

试试这个代码

Dim doc As PDDocument = Nothing
doc = PDDocument.load(input)
Dim stripper As New PDFTextStripper()
Dim textFormPdf =stripper.getText(doc)
doc.close()

【讨论】:

  • 它正在工作,但它只是复制和粘贴内容而没有任何格式
  • @vivekpadelkar 是的。如果您想要漂亮的格式,请使用 PDF。顺便说一句,当前版本是 1.8.12 和 2.0.2。
  • 您可以使用像 itextsharp 这样的库,它提供了很多功能,如 pdf 到文本、pdf 到图像或 pdf 到 html 等。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2012-04-03
  • 1970-01-01
  • 2015-03-10
  • 1970-01-01
  • 2022-07-27
  • 2017-12-28
  • 1970-01-01
相关资源
最近更新 更多