【问题标题】:Converting doc, docx, pdf to HTML using PHP linux使用 PHP linux 将 doc、docx、pdf 转换为 HTML
【发布时间】:2011-05-13 20:31:44
【问题描述】:

我运行一个求职网站,我需要在运行 php 的 linux CentOS 服务器上将 doc、docx 和 pdf 文件转换为 HTML。人们将这些文件作为简历提交。到目前为止,我发现 PHPDocx 非常擅长将 docx 转换为 html。但我被困在 doc/pdf 上。当我运行测试时,PDFTOHTML 给出错误“错误颜色”。就文档而言,我只找到了 wvwave,它似乎安装起来复杂且笨重。

有人对如何轻松地将 doc/pdf 转换为 HTML 有任何想法吗?

【问题讨论】:

  • 您有专用服务器还是使用分片托管?
  • PDF 转 HTML 基于 Xpdf : sourceforge.net/projects/pdftohtml
  • gs 可以将任何 PDF(除非数据是嵌入图像)移植到 XML;我猜是 HTML。我不会将此作为答案发布,因为它在批处理模式下的 RAM 太重。
  • 想知道您是否找到了可行的解决方案?在这里分享可能会有所帮助...

标签: php linux pdf docx doc


【解决方案1】:

我唯一能想到的就是 FPDF。 它用于在 PHP 中创建 PDF 文件,但它也可以打开 PDF 文件。 也许你可以以此为基础,为它开发某种 toHTML 函数。

它完全免费使用,并且已经有一些扩展。 它可能会帮助你。

http://www.fpdf.org

编辑: 感谢您在 Pierre 的 cmets 中添加我的帖子:

您可以使用 fpdi:http://www.setasign.de/products/pdf-php-solutions/fpdi 但输入的 pdf 就像一个图像。

到目前为止,我自己还没有看过它,但这可能会有所帮助。

【讨论】:

  • 我知道!但它也可以读取现有的 PDF 文件,我很确定你可以开发一些使用 FPDF 作为基类输出 HTML 的东西!
  • +1 因为不公平的 user1914292 投反对票,他没有阅读答案并投反对票。但是 Ch33f,你不能按预期使用 fdpf。您可以使用 fpdi:setasign.de/products/pdf-php-solutions/fpdi 但输入的 pdf 就像一个图像。
  • 感谢您的 +1 以及对我帖子的补充,我会将其包含在 etid 中。 :)
【解决方案2】:

就 .doc 文件而言,尝试 OpenOffice/LibreOffice 怎么样,例如:
lowriter -convert-to html doc_file.doc –
就 PDF 而言,如果 PDF 是文本的图形表示,那么您就不走运了,最好的办法是尝试使用 ImageMagick 将其转换为图像,如果它是正确的文本,它应该很容易转换。

【讨论】:

    【解决方案3】:

    已经有各种工具可以做到这一点,例如http://dag.wieers.com/home-made/unoconv/http://www.phpdocx.com/(您已经尝试过)

    http://www.phplivedocx.org/2009/08/13/convert-docx-doc-rtf-to-html-in-php/ 看起来很有希望。

    或者,您可以在您的服务器上安装一个便携式版本的 libreoffice,它允许命令行转换 https://help.libreoffice.org/Common/Starting_the_Software_With_Parameters

    我确信那里会有教程(在 libreoffice 支持区域)

    【讨论】:

      【解决方案4】:

      为了轻松地将 pdf 转换为 html,我建议使用 pdf2htmlEX,它可以生成出色的 HTML,并且对于运行时转换来说足够快。您应该首先努力为您的系统优化和构建它。项目链接中包含简单的构建方法。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2011-07-29
        • 2018-01-29
        • 1970-01-01
        • 2012-12-21
        相关资源
        最近更新 更多