【问题标题】:Can one extract images from pandoc's self-contained HTML files?可以从 pandoc 的自包含 HTML 文件中提取图像吗?
【发布时间】:2020-08-05 15:12:32
【问题描述】:

我使用带有选项 --self-contained 的 pandoc 来创建 HTML 文档,其中图像作为 base64 嵌入在 HTML 代码中。

图像包含在这样的 IMG 标记中(我已将长字符串 base64 字符替换为占位符: <IMG src="data:image/png;base64,<<base64-coded characters here>>" width=672">

现在,我想提取此类图像,即反向操作,将 base64 编码的数据替换为对文件的引用,并将数据转换为保存在磁盘上的普通 PNG 或 JPEG 文件。

我希望使用 pandoc 进行此转换,但我在 pandoc 中找不到此选项,也没有找到任何其他软件可以做到这一点。理想情况下,解决方案应该是外壳/脚本类型,可以轻松包含在更长的工具链中。

【问题讨论】:

  • 我建议寻找不同的工作流程。对于较大的文件,base64 确实效率很低。而且正如您所发现的,在进行文档转换时,没有很多工具可以处理它...

标签: html image base64 pandoc self-contained


【解决方案1】:

您可以将 pandoc 与 --extract-media 选项一起使用。图像将被写入提供的目录,base64 URL 将替换为对这些文件的引用。

例如

pandoc --from=html YOUR_FILE.html --extract-media=images

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2017-04-28
    • 1970-01-01
    • 1970-01-01
    • 2017-07-10
    • 1970-01-01
    • 2013-01-15
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多