数据集管理

最后更新于

数据集的创建和数据的上传

在导航栏点击 “新建数据集” 输入数据集名称,描述可以创建一个空数据集。

数据集创建后可以在数据集页面点击 “上传数据”。数据上传后,OpenBayes 会将支持的压缩包自动解压并同步其中数据,这个过程所需时间因数据包大小不同而不同。

格式支持

目前支持对 .tar.br .tar.bz2 .tar.gz .tar.lz4 .tar.sz .tar.xz .tar.zst .rar .tar .tbr .tbz2 .tgz .tlz4 .tsz .txz .zip .gz .bz2 .lz4 .sz .xz .zst 等压缩包的自动解压。如果上传的文件不是上述类型将直接将原始文件放入到新创建的数据集版本中。

断点续传

数据集上传支持「断点续传」,当因为网络或者意外导致一次上传中断后,如果上传的文件没有更改并且上传的目标数据集没有变化,数据会继续上一次的上传。

upload

注意 断点续传支持的最长周期为 15 天,如果上传的数据集在第一次上传开始后 15 天内依然没有完成上传,其数据将会被删除。

绑定数据集到容器

在创建容器时,绑定数据可以选择所创建的数据集将其绑定到容器中指定的目录。

在绑定数据时,需要选定映射到容器中的目录,如下图所示,将 cifar_10 的数据绑定到了 /input0 意味着在容器中通过 /input0 目录就可访问数据集中的内容。

例如 cifar10 数据集中有文件 meta.csv,如果将其绑定在了容器的 /input0 目录,那么可以通过路径 /input0/meta.csv 读取该文件。

在容器详情也可以看到具体容器的绑定目录,如下图所示:

类型的更改

在「数据集」的设置页面下,允许更改数据集的类型:

将其更改为「模型」后,其将在「模型」类型的数据仓库中展示。

数据版本的删除与整个数据集的删除

上文提到,数据集下可以包含多个版本,如果不再需要某一个特定的版本,可以在「版本」列表右侧的「删除当前版本」按钮处进行删除。该版本被删除后,其所占用的存储资源将会被释放。

当然整个数据集如果不再需要后也可以被永久删除,删除后该数据集下的各个版本都将被删除,也将不再占用用户的存储配额。

macOS 下大尺寸 zip 包的上传

zip 原始的标准最多支持大小为 4GB 的压缩包,以及最多包含 65535 个文件,新的 zip64 标准对其进行了扩展,支持了更大的压缩包和更多的文件个数。然而 macOS Sierra 以及其之后的版本默认的压缩工具在压缩超过 4GB 的内容时并没有支持这个标准,这会导致在 macOS 上压缩的超过 4GB 的压缩包无法在 OpenBayes 被成功解压并上传。因此请 macOS 的用户使用 Keka 或者其他支持 zip64 标准的压缩工具。