【问题标题】:Pandoc - Images in Word file are not extracted into media folder at the time of the filter executionPandoc - Word 文件中的图像在执行过滤器时未提取到媒体文件夹中
【发布时间】:2021-06-24 19:33:12
【问题描述】:

我有一些 MS Word 文件 (docx),我将它们转换为 markdown 文件。后来,这些降价文件被转换为 PDF 和 HTML 文件。所有的转换都是在 pandoc 的帮助下完成的。

当 word 文件被转换为 Markdown 时,我的 python pandoc 过滤器需要从 AST 文件中获取图像的宽度和高度信息(以英寸为单位)。这工作正常我能够从 AST 获取此信息。

{
    "t": "Image",
    "c": [
    [
        "",
        [],
        [
        ["width", "5.113165354330708in"],
        ["height", "3.063299212598425in"]
        ]
    ],
    [],
    ["media/image1.png", ""]
    ]
}

但它还需要使用枕头库获取实际图像,并从文件系统中获取图像大小(以像素为单位)和 DPI 信息以进行一些计算。

但问题是,当我尝试在我将 docx 转换为 markdown 时使用的 pandoc 过滤器中创建这个 markdown 图像链接时,当我使用 python 包枕头获取图像时,它说

FileNotFoundError: [Errno 2] No such file or directory: 'C:/Users/mertcan.segmen/Desktop/doc/media/image1.png'

这可能意味着 pandoc 在执行 pandoc 过滤器之前不会从 Word 文件中提取图像。这是正常的吗?如果没有,关于如何实现我的想法的任何建议?

【问题讨论】:

    标签: pandoc


    【解决方案1】:

    我找到了某种解决方法,在将我的 docx 转换为 markdown 之前,我正在运行 pandoc --extract-media MyDocxFile.docx ./。这只会将 docx 文件中的图像提取到媒体文件夹中,然后我运行 pandoc 命令进行转换。由于图像是之前提取的,因此我的过滤器可以访问它们。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-10-24
      • 1970-01-01
      • 1970-01-01
      • 2018-10-15
      • 2011-12-17
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多