"Data Repository" 软件解决方案
"Data Repository" software solution
我正在尝试找到一种软件解决方案,使我们的团队能够轻松上传数据集(可编写脚本和/或通过某些 UI)、标记这些数据集、检索这些数据集、数据集的访问控制、搜索标签,搜索文件 name/attributes/metadata(例如文件创建日期)。数据集可以是 CSV 文件、图像(二进制)数据集、文本、服务器日志、图像文件夹中的文件夹、csv 数据的 zip 文件中的任何内容。它可以是任何东西。我们需要将 GB 存储到潜在的 PB 数据。单个文件的范围可以从几 KB 到 100 GB。可用于 API 以编程方式检索这些数据集。
我们只是想有一个查找信息的集中位置,我们希望能够回答诸如 "Hey do you know if we have any lightening strike datasets?" 如果有 file/folder/zip 文件标记为 "lightening" 的问题当我搜索时,它应该拉回该数据集。
一个可能的解决方案是 Dataverse、Dspace、Fedora Commons、CKAN。然而,这些似乎真正适合学术界和出版物或小型数据集。最重要的是,他们删除了可能存在的任何类型的复杂文件夹结构(例如 Folder1-->subFolder1-->subFolder2)。我还质疑在其中一个系统中拥有 1000 万个 100kb 文件的可扩展性。
文件系统共享可以让我们简单地存储我们想要的任何东西,但我不知道启用数据标记的合理方法。
这几乎就像我在寻找两者的结合。有人知道最好是开源的工具可以做这样的事情吗?
从您目前的描述来看,DSpace 似乎是一个不错的选择。
我想通过以下示例解决您提出的问题:
可扩展性
这是一个多 TB 项目的示例:
https://ore.exeter.ac.uk/repository/handle/10871/14881
复杂结构
Dryad 基于 DSpace 并使用更复杂的数据模型,数据文件、数据包和原始出版物分别表示为单独的对象:
http://datadryad.org/resource/doi:10.5061/dryad.322vn
如果那是你想要的,你也可以从 Dryad 代码库开始你的项目,因为这个也是开源的:
https://github.com/datadryad/dryad-repo
我正在尝试找到一种软件解决方案,使我们的团队能够轻松上传数据集(可编写脚本和/或通过某些 UI)、标记这些数据集、检索这些数据集、数据集的访问控制、搜索标签,搜索文件 name/attributes/metadata(例如文件创建日期)。数据集可以是 CSV 文件、图像(二进制)数据集、文本、服务器日志、图像文件夹中的文件夹、csv 数据的 zip 文件中的任何内容。它可以是任何东西。我们需要将 GB 存储到潜在的 PB 数据。单个文件的范围可以从几 KB 到 100 GB。可用于 API 以编程方式检索这些数据集。
我们只是想有一个查找信息的集中位置,我们希望能够回答诸如 "Hey do you know if we have any lightening strike datasets?" 如果有 file/folder/zip 文件标记为 "lightening" 的问题当我搜索时,它应该拉回该数据集。
一个可能的解决方案是 Dataverse、Dspace、Fedora Commons、CKAN。然而,这些似乎真正适合学术界和出版物或小型数据集。最重要的是,他们删除了可能存在的任何类型的复杂文件夹结构(例如 Folder1-->subFolder1-->subFolder2)。我还质疑在其中一个系统中拥有 1000 万个 100kb 文件的可扩展性。
文件系统共享可以让我们简单地存储我们想要的任何东西,但我不知道启用数据标记的合理方法。
这几乎就像我在寻找两者的结合。有人知道最好是开源的工具可以做这样的事情吗?
从您目前的描述来看,DSpace 似乎是一个不错的选择。
我想通过以下示例解决您提出的问题:
可扩展性 这是一个多 TB 项目的示例: https://ore.exeter.ac.uk/repository/handle/10871/14881
复杂结构 Dryad 基于 DSpace 并使用更复杂的数据模型,数据文件、数据包和原始出版物分别表示为单独的对象: http://datadryad.org/resource/doi:10.5061/dryad.322vn
如果那是你想要的,你也可以从 Dryad 代码库开始你的项目,因为这个也是开源的: https://github.com/datadryad/dryad-repo