【问题标题】:Extracting article contents from PDF magazines从 PDF 杂志中提取文章内容
【发布时间】:2013-01-12 09:03:33
【问题描述】:

首先,我的目标不是一个具体的开发答案,而是一种开发方法。

我遇到的问题是,我有一个客户,在过去的 20 年里,我有一个 巨大 数量的 PDF 文章,大约 150 篇文章,每年 50 个 pdf。所有这些 PDF 都是从 Quark express 编译的,来自使用 mac 的人(如果该信息很重要)。每次创建新的 pdf 杂志时,网络开发团队都会将每篇文章复制并粘贴(!)到 Internet 上的表格(!),包括标题、内容、关键字、参考文献、作者姓名等。一个人通常需要大约 3 天的时间来完成这项工作。

当我在那里工作时(我已经不在了,那是差不多七年前的事了),我使用剪贴板监控应用程序和一些与服务器交互的简单的基于 XML 的 PHP 脚本将这个过程加快了三倍。然后,您需要做的就是选择文本,CTRL+C,选择更多文本,CTRL+C,转到应用程序 (ALT+TAB),按“下一篇文章”,然后重复此操作。但是我们,或者大部分是我,每年仍然要花费大约 50 天来处理 PDF 杂志。

现在我已经七年了,出于友好的访问原因,我即将再次与我的老老板交谈。我知道他们仍在使用我的应用程序(!)。但也许重新审视他们的问题是个好主意,看看我是否可以建议一个可以帮助他们的编码项目?

我从未使用过 Quark Express,我只知道它类似于 MS Word,就我对该软件的了解而言。我对未加密、提取的 PDF 代码/语法不是很熟悉。

简而言之:Quark Express 是否有一些特定的编译模式,可以在 PDF 脚本中用于提取文章?有哪些“智能”工具,可以从文章内容所在的类似结构的 pdf 页面中“学习”?是否有工具,例如某种 Quark Xpress 模块,可以将文章“封装”或“标记”在一起,并带有不可见的参考标签,从而使脚本的提取更加简单?

创建这些 PDF 的人在过去 20 年里一直在做他们的工作,除了软件更新之外,他们不愿意改变他们的工作流程。为他们提供的任何其他工具都不得干扰他们的工作流程,否则他们只会拒绝。

我不要代码;但只是一些关于您或其他人可能对其他 PDF 提取问题所做的描述。最好的答案可能是对几种方法的描述,或者对带有案例描述的外部链接的一些引用。

【问题讨论】:

    标签: pdf structure extraction article


    【解决方案1】:

    宽泛的问题,但乍一看,我的回答是——如果你让他们去到 PDF——你已经让事情变得非常困难了。如果他们仍在使用 Quark XPress,那么有更好的方法来做这种事情,并且类似的方法实际上已被不少出版商使用。

    1) 考虑从 Quark XPress 生成 PDF 和 XML。他们不想改变他们的方式很好,但无论如何他们必须用 Quark 创建 PDF;生成 XML 也不是一个很大的附加步骤。事实上(警告-从属关系!)有一些工具可以将所有这一切变成一个步骤。例如,您可以编写 AppleScript 来引导流程,但在人们单击“导出”后,像 axaio MadeToPrint 这样的东西会自动生成(正确的)PDF 和 XML 文件。

    2) 一旦您拥有相同内容的 PDF 和 XML,使用 PDF 进行打印(就像知道的那样),然后编写一些代码将 XML 转换为您在网站上需要的任何内容。如果编码是在网站本身上完成的,您甚至可能不需要调整来自 Quark 的 XML;只需使网站足够智能,以获取任何必要的点点滴滴。

    对广泛问题的广泛回答;希望这就是你要找的……

    【讨论】:

    • 方向差不多!我实际上不确定他们仍在使用的 Quark Xpress 版本。他们真的是老派,公平地说,这是一家快乐的小公司,我(IT小人)是谁来改变他们快乐熟悉的生活方式。您正在谈论的此 XML 导出功能,从哪个版本/发布年份开始存在?当时也有类似的讨论,但当时似乎并不存在。另外,Axaio MadeToPrint description,似乎没有提到那个 XML 文件?
    猜你喜欢
    • 2013-02-05
    • 1970-01-01
    • 2015-07-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2010-12-15
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多