从 PDF 杂志中提取文章内容答案

【问题标题】：Extracting article contents from PDF magazines从 PDF 杂志中提取文章内容
【发布时间】：2013-01-12 09:03:33
【问题描述】：

首先，我的目标不是一个具体的开发答案，而是一种开发方法。

我遇到的问题是，我有一个客户，在过去的 20 年里，我有一个巨大数量的 PDF 文章，大约 150 篇文章，每年 50 个 pdf。所有这些 PDF 都是从 Quark express 编译的，来自使用 mac 的人（如果该信息很重要）。每次创建新的 pdf 杂志时，网络开发团队都会将每篇文章复制并粘贴（！）到 Internet 上的表格（！），包括标题、内容、关键字、参考文献、作者姓名等。一个人通常需要大约 3 天的时间来完成这项工作。

当我在那里工作时（我已经不在了，那是差不多七年前的事了），我使用剪贴板监控应用程序和一些与服务器交互的简单的基于 XML 的 PHP 脚本将这个过程加快了三倍。然后，您需要做的就是选择文本，CTRL+C，选择更多文本，CTRL+C，转到应用程序 (ALT+TAB)，按“下一篇文章”，然后重复此操作。但是我们，或者大部分是我，每年仍然要花费大约 50 天来处理 PDF 杂志。

现在我已经七年了，出于友好的访问原因，我即将再次与我的老老板交谈。我知道他们仍在使用我的应用程序（！）。但也许重新审视他们的问题是个好主意，看看我是否可以建议一个可以帮助他们的编码项目？

我从未使用过 Quark Express，我只知道它类似于 MS Word，就我对该软件的了解而言。我对未加密、提取的 PDF 代码/语法不是很熟悉。

简而言之：Quark Express 是否有一些特定的编译模式，可以在 PDF 脚本中用于提取文章？有哪些“智能”工具，可以从文章内容所在的类似结构的 pdf 页面中“学习”？是否有工具，例如某种 Quark Xpress 模块，可以将文章“封装”或“标记”在一起，并带有不可见的参考标签，从而使脚本的提取更加简单？

创建这些 PDF 的人在过去 20 年里一直在做他们的工作，除了软件更新之外，他们不愿意改变他们的工作流程。为他们提供的任何其他工具都不得干扰他们的工作流程，否则他们只会拒绝。

我不要代码;但只是一些关于您或其他人可能对其他 PDF 提取问题所做的描述。最好的答案可能是对几种方法的描述，或者对带有案例描述的外部链接的一些引用。

【问题讨论】：

标签： pdf structure extraction article

【解决方案1】：

宽泛的问题，但乍一看，我的回答是——如果你让他们去到 PDF——你已经让事情变得非常困难了。如果他们仍在使用 Quark XPress，那么有更好的方法来做这种事情，并且类似的方法实际上已被不少出版商使用。

1) 考虑从 Quark XPress 生成 PDF 和 XML。他们不想改变他们的方式很好，但无论如何他们必须用 Quark 创建 PDF；生成 XML 也不是一个很大的附加步骤。事实上（警告-从属关系！）有一些工具可以将所有这一切变成一个步骤。例如，您可以编写 AppleScript 来引导流程，但在人们单击“导出”后，像 axaio MadeToPrint 这样的东西会自动生成（正确的）PDF 和 XML 文件。

2) 一旦您拥有相同内容的 PDF 和 XML，使用 PDF 进行打印（就像知道的那样），然后编写一些代码将 XML 转换为您在网站上需要的任何内容。如果编码是在网站本身上完成的，您甚至可能不需要调整来自 Quark 的 XML；只需使网站足够智能，以获取任何必要的点点滴滴。

对广泛问题的广泛回答；希望这就是你要找的……

【讨论】：

方向差不多！我实际上不确定他们仍在使用的 Quark Xpress 版本。他们真的是老派，公平地说，这是一家快乐的小公司，我（IT小人）是谁来改变他们快乐熟悉的生活方式。您正在谈论的此 XML 导出功能，从哪个版本/发布年份开始存在？当时也有类似的讨论，但当时似乎并不存在。另外，Axaio MadeToPrint description，似乎没有提到那个 XML 文件？