数据仓库介绍
备注
之前「数据仓库」被称作「数据集」,这更容易被理解为机器学习场景下的标注数据,而实际上这里除了 放置标注数据外也可以放置其他任意类型的数据,包括代码、训练的模型文件等。为了避免这个歧义,也是为新的「模型部署」功能做准备,OpenBayes 对原有的「数据集」概念做了调整,将「数据集」改称作「数据仓库」
目前数据仓库下共有两个分类:
- 数据集:除了模型相关的内容外的其他数据都可以放在这里
- 模型:用于存放模型文件、与模型文件配合使用的代码等
数据仓库的创建
两个类型的数据仓库的创建有两个独立的入口。
创建数据集
创建模型
注意
同样作为数据仓库,「模型」下和「数据集」下不能出现相同名字的项目。
数据仓库类型的切换
在「设置」页面,允许对数据仓库的类型进行切换:
数据仓库之间的拷贝
为了方便用户数据集的管理,除了允许将工作目录创建为数据仓库版本外,也允许将某一个数据仓库的子目录重新创建为一个数据仓库版本:
如上图所示,在一个数据仓库版本的某一个目录下点击「拷贝当前目录到数据集」
即可选择指定的数据集,选择「添加至已有数据集」
或「新建数据集」
。
「添加至已有数据集」
会把当前数据仓库的子目录添加到选定的已有数据集中。「新建数据集」
会把当前数据目录在目标数据集下 创建一个新的数据集版本。
在拷贝或创建过程中新的数据集版本会标记为「正在拷贝数据」
状态,完成拷贝后数据集版本会标记为「处理完毕」
,即可使用。
为数据仓库添加 README.md 文件
每个模型仓库版本下可以提供一个名为 README.md
的文件,提供对该模型仓库版本的一些说明。该文件会被展示在模型仓库版本的页面中。
公开数据仓库
创建的数据仓库默认为「私有数据仓库」,在数据仓库的「设置」页面可以将整个数据仓库设置为「公开数据仓库」。所有的注册用户都可以通过 URL 访问该数据仓库。
备注
每个人可以创建的「公开数据仓库」的个数是有限的,其限制可以在「资源使用状况」-「配额限制」-「公有数据集」查看。