【问题标题】:Converting PDF to HTML with Python [duplicate]使用 Python 将 PDF 转换为 HTML [重复]
【发布时间】:2010-09-21 13:03:41
【问题描述】:

如何使用 Python 将 PDF 文件转换为 HTML?

我在单独考虑 Google 所做(或似乎正在做的)索引 PDF 文件的工作。

我的最终目标是设置 Apache 以显示 PDF 文件的 HTML,因此任何引导我朝这个方向发展的东西也将不胜感激。

【问题讨论】:

    标签: python html apache pdf


    【解决方案1】:

    poppler 包提供了一个您可以使用的 pdf2html 实用程序。 libpoppler 还有一个Python binding

    【讨论】:

    • python 绑定主要用于在 GTK 小部件/ui 中呈现 PDF,所以我不确定它在这里会有所帮助。
    • 我并没有真正使用它,但它确实暴露了 poppler_page_get_text,这可能对 OP 有用。
    • 对,但如果这就是 OP 想要的全部,这似乎是对 GTK/Glib 绑定​​的一大浪费,特别是因为还有其他更简单的方法不依赖于 UI 工具包(例如你提到的 pdf2html) .我应该说我通常喜欢绑定,并且是原作者。不过在这种情况下可能不是。
    猜你喜欢
    • 1970-01-01
    • 2011-11-26
    • 2015-03-25
    • 2013-07-23
    • 2012-12-05
    • 1970-01-01
    • 2010-10-18
    • 2011-03-04
    相关资源
    最近更新 更多