跳到主要内容

数据仓库介绍

备注

之前「数据仓库」被称作「数据集」,这更容易被理解为机器学习场景下的标注数据,而实际上这里除了放置标注数据外也可以放置其他任意类型的数据,包括代码、训练的模型文件等。为了避免这个歧义,也是为新的「模型部署」功能做准备,OpenBayes 对原有的「数据集」概念做了调整,将「数据集」改称作「数据仓库」

目前数据仓库下共有两个分类:

  • 数据集:除了模型相关的内容外的其他数据都可以放在这里
  • 模型:用于存放模型文件、与模型文件配合使用的代码等

数据仓库的创建

两个类型的数据仓库的创建有两个独立的入口。

创建数据集

创建模型

注意

同样作为数据仓库,「模型」下和「数据集」下不能出现相同名字的项目。

数据仓库类型的切换

在「设置」页面,允许对数据仓库的类型进行切换:

数据仓库之间的拷贝

为了方便用户数据集的管理,除了允许将工作目录创建为数据仓库版本外,也允许将某一个数据仓库的子目录重新创建为一个数据仓库版本:

如上图所示,在一个数据仓库版本的某一个目录下点击「拷贝当前目录到数据集」即可选择指定的数据集,选择「添加至已有数据集」「新建数据集」

  • 「添加至已有数据集」会把当前数据仓库的子目录添加到选定的已有数据集中。
  • 「新建数据集」会把当前数据目录在目标数据集下创建一个新的数据集版本。

在拷贝或创建过程中新的数据集版本会标记为「正在拷贝数据」状态,完成拷贝后数据集版本会标记为「处理完毕」,即可使用。

为数据仓库添加 README.md 文件

每个模型仓库版本下可以提供一个名为 README.md 的文件,提供对该模型仓库版本的一些说明。该文件会被展示在模型仓库版本的页面中。

公开数据仓库

创建的数据仓库默认为「私有数据仓库」,在数据仓库的「设置」页面可以将整个数据仓库设置为「公开数据仓库」。所有的注册用户都可以通过 URL 访问该数据仓库。

备注

每个人可以创建的「公开数据仓库」的个数是有限的,其限制可以在「资源使用状况」-「配额限制」-「公有数据集」查看。