【发布时间】:2012-01-12 06:57:59
【问题描述】:
是否有合适的库可用于将 PDF 转换为 HTML 或其他可以轻松转换为 HTML 的格式?
我搜索了类似的问题,但没有成功。
我希望能够从 PDF 中提取文本,可能是图像。我不想在 HTML 中嵌入 PDF。
【问题讨论】:
-
我知道这是很久以前的事了,但如果不介意,你最后用的是什么?
标签: html pdf file-conversion
是否有合适的库可用于将 PDF 转换为 HTML 或其他可以轻松转换为 HTML 的格式?
我搜索了类似的问题,但没有成功。
我希望能够从 PDF 中提取文本,可能是图像。我不想在 HTML 中嵌入 PDF。
【问题讨论】:
标签: html pdf file-conversion
【讨论】:
就像我在上面评论中提到的,绝对可以使用工具 Able2Extract7 将 pdf 转换为 html,该工具可以从here下载
我已经使用这个工具将近 2 年了,我对它非常满意。此工具可让您将 PDF 转换为 Word、Excel、PowerPoint、Publisher、HTML、OO 等。查看截图
小提示:此工具不是免费软件。
HTH
【讨论】:
下载
import java.io.InputStream;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.tools.PDFText2HTML;
// .....
try {
InputStream is = // ..... Read PDF file
PDDocument pdd = PDDocument.load(is); //This is the in-memory representation of the PDF document.
PDFText2HTML converter = new PDFText2HTML(); // the converter
String html = converter.getText(pdd); // That's it!
pdd.close();
is.close();
} catch (IOException ioe) {
// ......
}
请注意:图像不会被推送到 HTML 输出。
【讨论】:
将 PDF 转换为 HTML 并不难。但是,有许多在线选项可能会将您的数据暴露给第三方。按照这些步骤操作,效果很好。
打开the PDF2HTMLEX page。 (您可以按照我提到的后续步骤进行操作,也可以按照页面上的说明进行操作。)
The package is available for download for Windows from here.
从许多可用的选项中,我建议下载“pdf2htmlEX-win32-0.14.6-upx-with-poppler-data.zip(pdf2htmlEx.exe 与 UPX 打包)”
下载解压后,只需一个 cmd 命令即可完成转换。
C:\Users\kjk\Downloads\pdf2htmlEX-win32-0.14.6-upx-with-poppler-data>pdf2htmlEX.exe c:\1\abc.pdf
最终命令:
pdf2htmlEX.exe c:\1\abc.pdf
(您当然可以缩短文件夹的名称,但是,我保持它与解压缩下载后看到的相同。我假设您可以将 cmd 中的目录更改为所需的文件夹,否则谷歌如何。)
abc.pdf 将被转换为 HTML 并以 abc.html 的形式保存在与您的 exe 相同的文件夹中。
【讨论】:
brew install pdf2htmlEX
是的,这绝对是可能的。 如果你在 ubuntu linux 上
apt-get install pdftohtml
然后
pdftohtml myFile.pdf myFile.htm -c -noframes
如果您想查看所有标志的含义,只需键入
pdftohtml
如果您不在 linux 上,可以使用大量工具来实现这一点。
【讨论】:
pdftohtml
pdftohtml 也可以通过 TeX Live 在 Windows 上使用:tug.org/texlive
这是 Linux pdfgrep 和 sed 的一种可能性
sudo apt install pdfgrep
pdfgrep .yourdoc.pdf | sed '/^$/d'| sed -e 's/^%%/<p>%%/'| sed -e 's/^--/<p>--/' | sed -e 's/--$/--<p>/'> yourdoc.html
要正确格式化,您需要使用sed 相应地指定正则表达式。
【讨论】: