Pandoc - Word 文件中的图像在执行过滤器时未提取到媒体文件夹中答案

【问题标题】：Pandoc - Images in Word file are not extracted into media folder at the time of the filter executionPandoc - Word 文件中的图像在执行过滤器时未提取到媒体文件夹中
【发布时间】：2021-06-24 19:33:12
【问题描述】：

我有一些 MS Word 文件 (docx)，我将它们转换为 markdown 文件。后来，这些降价文件被转换为 PDF 和 HTML 文件。所有的转换都是在 pandoc 的帮助下完成的。

当 word 文件被转换为 Markdown 时，我的 python pandoc 过滤器需要从 AST 文件中获取图像的宽度和高度信息（以英寸为单位）。这工作正常我能够从 AST 获取此信息。

{
    "t": "Image",
    "c": [
    [
        "",
        [],
        [
        ["width", "5.113165354330708in"],
        ["height", "3.063299212598425in"]
        ]
    ],
    [],
    ["media/image1.png", ""]
    ]
}

但它还需要使用枕头库获取实际图像，并从文件系统中获取图像大小（以像素为单位）和 DPI 信息以进行一些计算。

但问题是，当我尝试在我将 docx 转换为 markdown 时使用的 pandoc 过滤器中创建这个 markdown 图像链接时，当我使用 python 包枕头获取图像时，它说

FileNotFoundError: [Errno 2] No such file or directory: 'C:/Users/mertcan.segmen/Desktop/doc/media/image1.png'

这可能意味着 pandoc 在执行 pandoc 过滤器之前不会从 Word 文件中提取图像。这是正常的吗？如果没有，关于如何实现我的想法的任何建议？

【问题讨论】：

标签： pandoc

【解决方案1】：

我找到了某种解决方法，在将我的 docx 转换为 markdown 之前，我正在运行 pandoc --extract-media MyDocxFile.docx ./。这只会将 docx 文件中的图像提取到媒体文件夹中，然后我运行 pandoc 命令进行转换。由于图像是之前提取的，因此我的过滤器可以访问它们。

【讨论】：