【发布时间】:2016-01-05 17:05:23
【问题描述】:
我正在尝试找到一种软件解决方案,使我们的团队能够轻松上传数据集(可编写脚本和/或通过某些 UI)、标记这些数据集、检索这些数据集、对数据集进行访问控制、搜索标签、搜索文件名称/属性/元数据(例如文件创建日期)。数据集可以是 CSV 文件、图像(二进制)数据集、文本、服务器日志、图像文件夹中的文件夹、csv 数据的 zip 文件中的任何内容。它可以是任何东西。我们需要将 GB 存储到潜在的 PB 数据中。单个文件的范围可以从几 KB 到 100 GB。可用 API 以编程方式检索这些数据集。
我们只是希望有一个集中的位置来查找信息,并且我们希望能够回答诸如“嘿,您知道我们是否有任何雷击数据集吗?”之类的问题。如果在我搜索时有一个标记为“lightening”的文件/文件夹/zip 文件,它应该拉回该数据集。
可能的解决方案是 Dataverse、Dspace、Fedora Commons、CKAN。然而,这些似乎真的面向学术界和出版物或小型数据集。最重要的是,它们删除了可能存在的任何类型的复杂文件夹结构(例如 Folder1-->subFolder1-->subFolder2)。我还质疑在其中一个系统中拥有 1000 万个 100kb 文件的可扩展性。
文件系统共享将允许我们简单地存储我们想要的任何内容,但我不知道启用数据标记的合理方法。
这几乎就像我在寻找两者的结合。有人知道一个工具最好是开源的,它可以做这样的事情吗?
【问题讨论】:
标签: repository dspace data-management