使用 Harvester 收获特定数据集？

【问题标题】：Harvest specific dataset with Harvester?使用 Harvester 收获特定数据集？
【发布时间】：2018-01-08 17:49:00
【问题描述】：

借助 CKAN 开放数据门户，您可以定义收获作业，这是一项可以从各种来源收集数据并将其存储在您的门户中的服务。一种选择是从另一个 CKAN 源中获取。我已经设法做到了，但是收割机收集了该远程实例上的所有数据集，这对于我们需要的东西来说太过分了。

有没有什么方法可以指定要在 CKAN 中收集哪些数据集，而不是毫无例外地获取所有数据集？

一些元数据： - Ubuntu 服务器 14.04 - Python 2.7 - 最新版本的 CKAN (2.5?) - Rabbit-mq 消息代理（如果需要可以选择Redis）

【问题讨论】：

【解决方案1】：

与此最接近的是使用organizations_filter_include 选项。请参阅CKAN harvester docs。在源 CKAN 上，您需要将要收集的数据集放入特定组织。

这可能不方便，所以你可以用组来代替。这将需要在 ckanharvester.py 中进行一些复制和粘贴以适应 organizations_filter_include 功能。对此的拉取请求将受到欢迎（根据 AGPL 许可证，如果您在公共站点上运行此更改，则确实是强制性的）。

最灵活的方法是添加一个新的harvester 配置选项以通过搜索字符串指定数据集，该字符串将作为fq_terms 传递给_search_for_datasets。同样，这将是一个受欢迎的贡献。

【讨论】：