“资料库”软件解决方案答案

【问题标题】："Data Repository" software solution“资料库”软件解决方案
【发布时间】：2016-01-05 17:05:23
【问题描述】：

我正在尝试找到一种软件解决方案，使我们的团队能够轻松上传数据集（可编写脚本和/或通过某些 UI）、标记这些数据集、检索这些数据集、对数据集进行访问控制、搜索标签、搜索文件名称/属性/元数据（例如文件创建日期）。数据集可以是 CSV 文件、图像（二进制）数据集、文本、服务器日志、图像文件夹中的文件夹、csv 数据的 zip 文件中的任何内容。它可以是任何东西。我们需要将 GB 存储到潜在的 PB 数据中。单个文件的范围可以从几 KB 到 100 GB。可用 API 以编程方式检索这些数据集。

我们只是希望有一个集中的位置来查找信息，并且我们希望能够回答诸如“嘿，您知道我们是否有任何雷击数据集吗？”之类的问题。如果在我搜索时有一个标记为“lightening”的文件/文件夹/zip 文件，它应该拉回该数据集。

可能的解决方案是 Dataverse、Dspace、Fedora Commons、CKAN。然而，这些似乎真的面向学术界和出版物或小型数据集。最重要的是，它们删除了可能存在的任何类型的复杂文件夹结构（例如 Folder1-->subFolder1-->subFolder2）。我还质疑在其中一个系统中拥有 1000 万个 100kb 文件的可扩展性。

文件系统共享将允许我们简单地存储我们想要的任何内容，但我不知道启用数据标记的合理方法。

这几乎就像我在寻找两者的结合。有人知道一个工具最好是开源的，它可以做这样的事情吗？

【问题讨论】：

标签： repository dspace data-management

【解决方案1】：

从您目前所描述的情况来看，DSpace 似乎确实很合适。

我想通过以下示例解决您提出的问题：

可扩展性 下面是一个多 TB 项目的示例： https://ore.exeter.ac.uk/repository/handle/10871/14881

结构复杂 Dryad 基于 DSpace 并使用更复杂的数据模型，将数据文件、数据包和原始出版物分别表示为单独的对象： http://datadryad.org/resource/doi:10.5061/dryad.322vn

如果这是你想要的，你也可以从 Dryad 代码库开始你的项目，因为这个也是开源的： https://github.com/datadryad/dryad-repo

【讨论】：