【问题标题】:PHP - Extract Text from Different File Formats Word/Excel/Powerpoint/PDF/RTFPHP - 从不同的文件格式 Word/Excel/Powerpoint/PDF/RTF 中提取文本
【发布时间】:2012-06-16 08:30:00
【问题描述】:

我正在开发一个 Web 应用程序,用户可以在其中上传不同的文件 MS Word(.doc 和 .docx)、Excel(.xls 和 .xlsx)、Power point、PDF、文本文件和富文本文件 (.rtf) .

作为应用程序流程的一部分,我希望在 IFrame 中显示文件内容的预览,最好是 HTML,但我可以使用 PHP 类来处理文本

我使用的方法是:

  1. 识别每个文件的扩展名

  2. 以不同方式处理每个文件

  3. 显示文本或 HMTL

有没有图书馆可以做到这一点?

更新:

发布我的最终解决方案作为答案,而不是更新问题

【问题讨论】:

  • 我认为您的问题没有多大用处,也没有帮助。另请参阅Stack Overflow doesn't provide product or service recommendations
  • 我不是在寻求服务推荐,我是在寻求解决我遇到的问题的方法
  • 当然,但是这个网站是关于编程问题的。我也想知道,因为这个问题(或者更好的是它所包含的问题)已经被问过很多次了。所以我想如果你改进它是值得的。
  • 我认为没有单一的解决方案;您必须为此使用单独的库。我使用 PHPExcel 来读取 Excel,效果很好。
  • @Sarke 谢谢,我将研究 PHPExcel 的 excel,MS Word、PDF 或 Powerpoint 的任何内容?

标签: php excel pdf ms-word powerpoint


【解决方案1】:

没有一个库可以解决这个问题,所以我为每种文件类型使用以下库解决了这个问题:

a) MS Word 文档 - Live Docx (http://www.phplivedocx.org/2009/08/13/convert-docx-doc-rtf-to-html-in-php/)

b) MS Excel - PHP Excel (http://phpexcel.codeplex.com/)

c) PDF 中的文本 - 此 Pastebin 中的类 http://pastebin.com/hRviHKp1

d) Powerpoint - 仍在进行中

我已经在我的博客http://ssmusoke.wordpress.com/2012/06/16/display-contents-of-different-file-formats-wordexcelpowerpointpdfrtf-as-html/提供了更多细节

【讨论】:

    【解决方案2】:

    几年前我有一个类似的任务,我们最终在服务器模式下使用 OpenOffice 和 ImageMagick 来检索 PowerPoint 文档的缩略图。对于某种演示文稿库。

    基本上,这个想法是运行 OpenOffice 并将您的文档转换为 PDF,然后使用 ImageMagick 创建该 PDF 第一页的缩略图。

    这里的这个人使用 OpenOffice 和另一个工具来转换文档:https://stackoverflow.com/a/1046159/626621(可以帮助你)

    我认为这样做的好处是,作为文档预览的图像将比文本更能告诉您的用户。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2010-11-12
      • 1970-01-01
      • 1970-01-01
      • 2021-03-19
      • 1970-01-01
      • 2012-07-22
      • 2022-10-17
      相关资源
      最近更新 更多