数据上传
目前 OpenBayes 有以下多种方式进行数据上传:
- 在已经运行起来的「Jupyter 工作空间」进行数据上传
- 使用 OpenBayes「数据仓库」中的「上传」功能
- 使用 FileBrowser 进行数据上传
其中「数据仓库」的上传支持通过浏览器上传和 bayes 命令行工具上传。对于数据规模不大的情况,通过「Jupyter 工作空间」上传是可以满足需求的。但是如果希望更多的数据管理(增删改查,批量目录上传,断点续传等)可以使用 FileBrowser 进行数据上传。
通过「Jupyter 工作空间」进行数据上传
在启动「Jupyter 工作空间」后,在左侧的「文件浏览器」可以通过上次的「上传」实现单个文件的上传。
在大文件(大于 15MB)的上传过程中在其下方会显示一个进度条:
通过将文件拖拽到左侧「文件浏览器」也会触发文件的上传。
通过「Jupyter 工作空间」上传文件没有「断点续传」的功能,任何上传的失败都需要整个文件重新上传。
OpenBayes「数据仓库」中的「上传」功能
「数据集」上传的功能与「模型」的「上传」功能是一致的,这里以「数据集」为例进行介绍。
点击左侧菜单栏「数据集」后的「+」,输入数据集名称和描述,即可创建一个空数据集。
数据集创建后可以在数据集页面右上角点击「上传新版本」。
在上传的界面上可以看到其罗列了支持「自动解压」的文件类型,并提示「依据存储资源余量当前最大文件尺寸为 xxx」。这里的大小限制依据当前用户的剩余空间大小而定,最大支持「500 GB」的文件上传。
多文件上传
在上传界面可以一次性上传最多 500 个文件,支持文件的多选,文件拖拽等多种方式选择要上传的文件。
上传的文件无 法处理文件的重名,因此在拖拽文件夹上传时,如果上传的文件有相同的名字那么最终只有一个文件会被保存。
自动解压
如果上传「单个」文件符合以下格式时 .tar.br .tar.bz2 .tar.gz .tar.lz4 .tar.sz .tar.xz .tar.zst .rar .tar .tbr .tbz2 .tgz .tlz4 .tsz .txz .zip .gz .bz2 .lz4 .sz .xz .zst
压缩包会自动解压。如果上传的文件不是上述类型,或者是一次性上传多个文件,将直接将原始文件放入到新创建的数据集版本中。
如果希望多个压缩包解压到同一个目录下,可以以更新数据集版本的数据的形式,分次上传单个压缩包到同一个数据集版本下。
断点续传
数据集上传支持「断点续传」,当因为网络或者意外导致一次上传中断后,如果上传的文件没有更改并且上传的目标数据集没有变化,数据会继续上一次的上传。
断点续传支持的最长周期为 15 天,如果上传的数据集在第一次上传开始后 15 天内依然没有完成上传,其数据将会被删除。
通过 bayes
命令行工具上传
在 用 bayes 上传数据 已经做了详细的介绍。
使用 FileBrowser 进行数据上传
FileBrowser 是一个基于 Web 的文件管理器,可以通过浏览器访问 OpenBayes 中的数据集,进行数据的增删改查,批量目录上传等操作。
这里提供一个视频教程,介绍如何使用 FileBrowser 进行数据上传。