数据集管理

最后更新于

数据集的创建和数据的上传

在导航栏点击 “新建数据集” 输入数据集名称,描述可以创建一个空数据集。

数据集创建后可以在数据集页面点击 “上传压缩包” 通过 zip 包的方式上传数据。数据上传后,OpenBayes 会将压缩包解压并同步其中数据,这个过程所需时间因数据包大小不同而不同。

断点续传

数据集上传支持「断点续传」,当因为网络或者意外导致一次上传中断后,如果上传的文件没有更改并且上传的目标数据集没有变化,数据会继续上一次的上传。

upload

注意 断点续传支持的最长周期为 15 天,如果上传的数据集在第一次上传开始后 15 天内依然没有完成上传,其数据将会被删除。

绑定数据集到容器

在创建容器时,绑定数据可以选择所创建的数据集将其绑定到容器中指定的目录。

在绑定数据时,需要选定映射到容器中的目录,如下图所示,将 cifar_10 的数据绑定到了 /input0 意味着在容器中通过 /input0 目录就可访问数据集中的内容。

例如 cifar10 数据集中有文件 meta.csv,如果将其绑定在了容器的 /input0 目录,那么可以通过路径 /input0/meta.csv 读取该文件。

在容器详情也可以看到具体容器的绑定目录,如下图所示:

数据版本的删除与整个数据集的删除

上文提到,数据集下可以包含多个版本,如果不再需要某一个特定的版本,可以在「版本」列表右侧的「删除」按钮处进行删除。该版本被删除后,其所占用的存储资源将会被释放。

当然整个数据集如果不再需要后也可以被永久删除,删除后该数据集下的各个版本都将被删除,也将不再占用用户的存储配额。

macOS 下大尺寸 zip 包的上传

zip 原始的标准最多支持大小为 4GB 的压缩包,以及最多包含 65535 个文件,新的 zip64 标准对其进行了扩展,支持了更大的压缩包和更多的文件个数。然而 macOS Sierra 以及其之后的版本默认的压缩工具在压缩超过 4GB 的内容时并没有支持这个标准,这会导致在 macOS 上压缩的超过 4GB 的压缩包无法在 OpenBayes 被成功解压并上传。因此请 macOS 的用户使用 Keka 或者其他支持 zip64 标准的压缩工具。