【发布时间】:2021-06-24 19:33:12
【问题描述】:
我有一些 MS Word 文件 (docx),我将它们转换为 markdown 文件。后来,这些降价文件被转换为 PDF 和 HTML 文件。所有的转换都是在 pandoc 的帮助下完成的。
当 word 文件被转换为 Markdown 时,我的 python pandoc 过滤器需要从 AST 文件中获取图像的宽度和高度信息(以英寸为单位)。这工作正常我能够从 AST 获取此信息。
{
"t": "Image",
"c": [
[
"",
[],
[
["width", "5.113165354330708in"],
["height", "3.063299212598425in"]
]
],
[],
["media/image1.png", ""]
]
}
但它还需要使用枕头库获取实际图像,并从文件系统中获取图像大小(以像素为单位)和 DPI 信息以进行一些计算。
但问题是,当我尝试在我将 docx 转换为 markdown 时使用的 pandoc 过滤器中创建这个 markdown 图像链接时,当我使用 python 包枕头获取图像时,它说
FileNotFoundError: [Errno 2] No such file or directory: 'C:/Users/mertcan.segmen/Desktop/doc/media/image1.png'
这可能意味着 pandoc 在执行 pandoc 过滤器之前不会从 Word 文件中提取图像。这是正常的吗?如果没有,关于如何实现我的想法的任何建议?
【问题讨论】:
标签: pandoc