【发布时间】:2016-05-18 09:10:03
【问题描述】:
在我们的应用程序中,Heritrix 被用作抓取引擎,一旦抓取作业完成,我们将手动启动端点以从网站下载 PDF。我们希望在抓取作业完成后立即自动执行此下载 pdf 任务。 HEritrix 是否提供任何 URI/webservice 方法 - 返回作业状态? (或)我们是否需要创建一个投票应用来持续监控作业的状态?
【问题讨论】:
标签: heritrix
在我们的应用程序中,Heritrix 被用作抓取引擎,一旦抓取作业完成,我们将手动启动端点以从网站下载 PDF。我们希望在抓取作业完成后立即自动执行此下载 pdf 任务。 HEritrix 是否提供任何 URI/webservice 方法 - 返回作业状态? (或)我们是否需要创建一个投票应用来持续监控作业的状态?
【问题讨论】:
标签: heritrix
我不知道是否有任何选项可以在没有持续监控的情况下执行此操作,但您可以使用 Heritrix API 获取工作状态,例如
curl -v -d "action=" -k -u admin:admin --anyauth --location -H "Accept: application/xml" https://localhost:8443/engine/job/myjob
为您提供 XML,您可以从中读取作业状态。
另一个可能更简单(但不是那么“专业”)的选项是检查您的工作 warcs 目录是否包含扩展名为 .open 的文件。如果没有 - 工作就完成了。
【讨论】: