【问题标题】:"Data Repository" software solution“资料库”软件解决方案
【发布时间】:2016-01-05 17:05:23
【问题描述】:

我正在尝试找到一种软件解决方案,使我们的团队能够轻松上传数据集(可编写脚本和/或通过某些 UI)、标记这些数据集、检索这些数据集、对数据集进行访问控制、搜索标签、搜索文件名称/属性/元数据(例如文件创建日期)。数据集可以是 CSV 文件、图像(二进制)数据集、文本、服务器日志、图像文件夹中的文件夹、csv 数据的 zip 文件中的任何内容。它可以是任何东西。我们需要将 GB 存储到潜在的 PB 数据中。单个文件的范围可以从几 KB 到 100 GB。可用 API 以编程方式检索这些数据集。

我们只是希望有一个集中的位置来查找信息,并且我们希望能够回答诸如“嘿,您知道我们是否有任何雷击数据集吗?”之类的问题。如果在我搜索时有一个标记为“lightening”的文件/文件夹/zip 文件,它应该拉回该数据集。

可能的解决方案是 Dataverse、Dspace、Fedora Commons、CKAN。然而,这些似乎真的面向学术界和出版物或小型数据集。最重要的是,它们删除了可能存在的任何类型的复杂文件夹结构(例如 Folder1-->subFolder1-->subFolder2)。我还质疑在其中一个系统中拥有 1000 万个 100kb 文件的可扩展性。

文件系统共享将允许我们简单地存储我们想要的任何内容,但我不知道启用数据标记的合理方法。

这几乎就像我在寻找两者的结合。有人知道一个工具最好是开源的,它可以做这样的事情吗?

【问题讨论】:

    标签: repository dspace data-management


    【解决方案1】:

    从您目前所描述的情况来看,DSpace 似乎确实很合适。

    我想通过以下示例解决您提出的问题:

    可扩展性 下面是一个多 TB 项目的示例: https://ore.exeter.ac.uk/repository/handle/10871/14881

    结构复杂 Dryad 基于 DSpace 并使用更复杂的数据模型,将数据文件、数据包和原始出版物分别表示为单独的对象: http://datadryad.org/resource/doi:10.5061/dryad.322vn

    如果这是你想要的,你也可以从 Dryad 代码库开始你的项目,因为这个也是开源的: https://github.com/datadryad/dryad-repo

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-06-09
      • 2017-02-07
      • 2017-10-20
      • 1970-01-01
      • 2011-02-04
      相关资源
      最近更新 更多