【问题标题】:Extract plots from PDFs从 PDF 中提取绘图
【发布时间】:2016-06-10 17:54:10
【问题描述】:

我们有一个 pdf 页面,其中包含一个或多个数字,这些数字是实验结果的二维图。这些数字可能会或可能不会嵌入到文本中。每个图都有 x 和 y 轴,并在图中标记了它们的标签和单位测量值。每个图形内部都有一个或多个图,每个图都有不同的颜色。

我们如何将绘图转换为对应的 x 和 y 值的表格(比如 100 个点)?

我已经尝试过WebPlotDigitizer,但它仅在输入是独立的情节图片时才有效。

我认为我需要做的是从 PDF 中提取图表并进一步处理。现在,我找不到这样做的工具。我附上了一个sample PDF,必须从中提取地块。

请注意,PDF 最后一页中的 2 个图是图像,可以轻松提取(我找到了几个软件)。其他图不是图像,软件无法提取它们.

有没有开源软件可以做到这一点?

【问题讨论】:

  • 您可以使用 ImageMagick 将每个页面转换为 PNG 或 TIFF 文件,然后剪下绘图并将其发送到 WebPlotDigitiser,但我怀疑您不是这个意思,对吗?

标签: image pdf image-processing plot


【解决方案1】:

您提供的此 PDF 文件中的绘图是用矢量图制作的,因此提取它们的唯一方法是将 PDF 转换为图像(即渲染页面)。试试ImageMagick's convert command line,看看这个answer

【讨论】:

    【解决方案2】:

    由于 Photoshop 非常适合编写脚本,实际上可以通过编程方式从 PDF 中提取图像(与页面相反;请参阅 Photoshop JavaScript 文档)。

    然后,您拥有整套工具来调整图像,从而更容易完成进一步的处理(解释)。

    【讨论】:

      猜你喜欢
      • 2011-01-29
      • 2019-11-14
      • 2012-10-21
      • 1970-01-01
      • 2020-04-04
      • 1970-01-01
      • 2022-01-25
      • 2012-02-01
      相关资源
      最近更新 更多