【问题标题】:Harvest specific dataset with Harvester?使用 Harvester 收获特定数据集?
【发布时间】:2018-01-08 17:49:00
【问题描述】:

借助 CKAN 开放数据门户,您可以定义收获作业,这是一项可以从各种来源收集数据并将其存储在您的门户中的服务。一种选择是从另一个 CKAN 源中获取。我已经设法做到了,但是收割机收集了该远程实例上的所有数据集,这对于我们需要的东西来说太过分了。

有没有什么方法可以指定要在 CKAN 中收集哪些数据集,而不是毫无例外地获取所有数据集?

一些元数据: - Ubuntu 服务器 14.04 - Python 2.7 - 最新版本的 CKAN (2.5?) - Rabbit-mq 消息代理(如果需要可以选择Redis)

【问题讨论】:

    标签: python apache ubuntu-14.04 ckan


    【解决方案1】:

    与此最接近的是使用organizations_filter_include 选项。请参阅CKAN harvester docs。在源 CKAN 上,您需要将要收集的数据集放入特定组织。

    这可能不方便,所以你可以用组来代替。这将需要在 ckanharvester.py 中进行一些复制和粘贴以适应 organizations_filter_include 功能。对此的拉取请求将受到欢迎(根据 AGPL 许可证,如果您在公共站点上运行此更改,则确实是强制性的)。

    最灵活的方法是添加一个新的harvester 配置选项以通过搜索字符串指定数据集,该字符串将作为fq_terms 传递给_search_for_datasets。同样,这将是一个受欢迎的贡献。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-10-29
      • 2018-08-19
      • 1970-01-01
      • 2021-05-16
      • 2021-08-26
      • 1970-01-01
      相关资源
      最近更新 更多