【问题标题】:Is there any method in ruby or in python to convert pdf to xmlruby 或 python 中是否有任何方法可以将 pdf 转换为 xml
【发布时间】:2011-07-20 05:31:12
【问题描述】:

最近我有一个要求,比如我需要将 pdf 文件转换为 xml。所以请告诉我如何用 python 或 ruby​​ 编程语言来做。 请尽快回复我的问题 您的帮助将不胜感激..

【问题讨论】:

  • 您想从 PDF 中提取数据并将其放入 XML 文件中,还是要将 PDF 表示为 XML(及其所有布局信息)?
  • 我只想从 pdf 中提取数据并放入 xml。但是我什至想知道另一种方法,所以请告诉我这两种方法

标签: xml pdf doc


【解决方案1】:

使用pdftohtml

可以用brew install pdftohtml安装。这会将pdftohtml 添加到您的路径中。

因此,要将 pdf 转换为 xml,您可以运行 pdftohtml -xml your_file.pdf your_file.xml

在 python 中,你可以使用这些行:

import os

cmd = 'pdftohtml -xml your_file.pdf your_file'
os.system(cmd)

!请注意,pdftohtml 会自动将“xml”扩展名添加到您的第二个文件输入中

【讨论】:

  • 我知道这是一篇很老的帖子,但以防万一有人偶然发现它,我建议:brew install poppler 它包含 pdftohtml 并且具有更多功能并且仍然受支持。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2012-11-19
  • 2021-04-20
  • 1970-01-01
  • 2012-07-04
  • 2021-12-08
  • 2021-09-23
相关资源
最近更新 更多