【问题标题】:PDF to HTML with proper formatting格式正确的 PDF 到 HTML
【发布时间】:2013-02-18 15:22:15
【问题描述】:

我正在将 PDF 文件转换为文本 (HTML),转换成功,但丢失了所有 ots 转换。有什么方法可以保持原来在 Pdf 文件中的正确格式? 我从here获得了关于 pdf 到文本的帮助

【问题讨论】:

  • 您的pdf2text.php 仅用于尝试使用 PHP 从 PDF 读取“干净”文本, 即没有任何格式信息的文本(甚至忽略内容流中的字体编码)。因此,如果您想真正提取具有其格式的 PDF 内容,您应该首先研究the PDF specification ISO 32000-1:2008,然后准备将几个月的工作投入到该项目中......

标签: php html pdf text


【解决方案1】:

基本上,PDF 是使用固定格式的文档,而 html 通常使用流体格式。您不会得到与 PDF 完全一样的 HTML 文档。

此外,某些 PDF 功能甚至不支持 html。

【讨论】:

  • 那么有什么方法可以为我从代码中获得的生成输出创建样式?
  • 理论上是的,如果您花时间了解样式在 PDF 中的存储方式以及它们如何转换为 css。我确实相信 adobe 以 PDF 文件格式发布文档。
  • 您能分享任何有用的链接吗?
  • 该标准现在似乎是 ISO 的一部分,这意味着您必须以大约 250 美元的价格购买该文档。 Adobe PDF ReferenceISO 32000-1。但是,您可能可以摆脱较旧的标准文档,在 adobe 页面上有一个存档链接。
  • @datasage 实际上 Adob​​e 在线发布了 ISO 标准的副本,请参阅我对最初问题的评论,该问题直接来自版权 ISO 32000-1 标准文档 [... [...] 根据与 ISO 的协议,正在为不需要包含 ISO 徽标和版权声明的正式版本的用户提供。此版本与 ISO 标准的技术资料相同;页码和章节号也被保留。(版权声明在第 2 页)
猜你喜欢
  • 1970-01-01
  • 2019-03-18
  • 2016-07-19
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2020-07-15
  • 1970-01-01
  • 2020-10-07
相关资源
最近更新 更多