跳到主要内容

数据上传

目前 OpenBayes 有以下多种方式进行数据上传:

  1. 在已经运行起来的「Jupyter 工作空间」进行数据上传
  2. 使用 OpenBayes「数据仓库」中的「上传」功能
  3. 使用 FileBrowser 进行数据上传

其中「数据仓库」的上传支持通过浏览器上传和 bayes 命令行工具上传。对于数据规模不大的情况,通过「Jupyter 工作空间」上传是可以满足需求的。但是如果希望更多的数据管理(增删改查,批量目录上传,断点续传等)可以使用 FileBrowser 进行数据上传。

通过「Jupyter 工作空间」进行数据上传

在启动「Jupyter 工作空间」后,在左侧的「文件浏览器」可以通过上次的「上传」实现单个文件的上传。

在大文件(大于 15MB)的上传过程中在其下方会显示一个进度条:

通过将文件拖拽到左侧「文件浏览器」也会触发文件的上传。

注意

通过「Jupyter 工作空间」上传文件没有「断点续传」的功能,任何上传的失败都需要整个文件重新上传。

OpenBayes「数据仓库」中的「上传」功能

备注

「数据集」上传的功能与「模型」的「上传」功能是一致的,这里以「数据集」为例进行介绍。

点击左侧菜单栏「数据集」后的「+」,输入数据集名称和描述,即可创建一个空数据集。

数据集创建后可以在数据集页面右上角点击「上传新版本」。

在上传的界面上可以看到其罗列了支持「自动解压」的文件类型,并提示「依据存储资源余量当前最大文件尺寸为 xxx」。这里的大小限制依据当前用户的剩余空间大小而定,最大支持「500 GB」的文件上传。

多文件上传

在上传界面可以一次性上传最多 500 个文件,支持文件的多选,文件拖拽等多种方式选择要上传的文件。

注意

上传的文件无法处理文件的重名,因此在拖拽文件夹上传时,如果上传的文件有相同的名字那么最终只有一个文件会被保存。

自动解压

如果上传「单个」文件符合以下格式时 .tar.br .tar.bz2 .tar.gz .tar.lz4 .tar.sz .tar.xz .tar.zst .rar .tar .tbr .tbz2 .tgz .tlz4 .tsz .txz .zip .gz .bz2 .lz4 .sz .xz .zst 压缩包会自动解压。如果上传的文件不是上述类型,或者是一次性上传多个文件,将直接将原始文件放入到新创建的数据集版本中。

如果希望多个压缩包解压到同一个目录下,可以以更新数据集版本的数据的形式,分次上传单个压缩包到同一个数据集版本下。

断点续传

数据集上传支持「断点续传」,当因为网络或者意外导致一次上传中断后,如果上传的文件没有更改并且上传的目标数据集没有变化,数据会继续上一次的上传。

注意

断点续传支持的最长周期为 15 天,如果上传的数据集在第一次上传开始后 15 天内依然没有完成上传,其数据将会被删除。

通过 bayes 命令行工具上传

用 bayes 上传数据 已经做了详细的介绍。

使用 FileBrowser 进行数据上传

FileBrowser 是一个基于 Web 的文件管理器,可以通过浏览器访问 OpenBayes 中的数据集,进行数据的增删改查,批量目录上传等操作。

这里提供一个视频教程,介绍如何使用 FileBrowser 进行数据上传。