【问题标题】:DOC to HTML file conversion with embedded fonts and inline images使用嵌入字体和内嵌图像的 DOC 到 HTML 文件转换
【发布时间】:2019-12-25 08:52:27
【问题描述】:

我正在尝试将 Doc/Docx 文件转换为 HTML。到目前为止,我发现使用 LibreOffice 可以在无头模式下实现它。我能够将文档转换为 HTML,并能够使用以下命令(在 osx 中)内嵌图像:

soffice --convert-to html:HTML:EmbedImages file_to_convert

和 在 ubuntu 中,命令是:

libreoffice --convert-to HTML:HTML --outdir ${outputPath} ${file.fullPath}

当文档从 doc 转换为 HTML 时,字体不会以 base64 格式嵌入 HTML 文件中。它创建一个没有嵌入字体的 HTML 文件。是否有任何解决方案可以在 HTML 文件中将字体嵌入为 based64 格式,以使输出的 html 与 doc/docx 内容完全相同?

【问题讨论】:

    标签: document libreoffice file-conversion converters


    【解决方案1】:

    如果您不反对学习新东西,我建议您研究 Python 模块 'python-docx' here

    有了它,您可以制作或更新 Docx 文件。它还可以打开 Docx 文件,您可以使用它来编写自定义转换脚本。我一直在用它来将 HTML 转换为 Docx,它非常有用。

    【讨论】:

      猜你喜欢
      • 2015-12-30
      • 1970-01-01
      • 2012-04-22
      • 2013-04-24
      • 2018-02-27
      • 2012-09-11
      • 1970-01-01
      • 1970-01-01
      • 2016-10-09
      相关资源
      最近更新 更多