【发布时间】:2013-02-18 15:22:15
【问题描述】:
我正在将 PDF 文件转换为文本 (HTML),转换成功,但丢失了所有 ots 转换。有什么方法可以保持原来在 Pdf 文件中的正确格式?
我从here获得了关于 pdf 到文本的帮助
【问题讨论】:
-
您的pdf2text.php 仅用于尝试使用 PHP 从 PDF 读取“干净”文本, 即没有任何格式信息的文本(甚至忽略内容流中的字体编码)。因此,如果您想真正提取具有其格式的 PDF 内容,您应该首先研究the PDF specification ISO 32000-1:2008,然后准备将几个月的工作投入到该项目中......