数据仓库

最后更新于

之前「数据仓库」被称作「数据集」,这更容易被理解为机器学习场景下的标注数据,而实际上这里除了放置标注数据外也可以放置其他任意类型的数据,包括代码、训练的模型文件等。为了避免这个歧义,也是为新的「模型部署」功能做准备,OpenBayes 对原有的「数据集」概念做了调整,将「数据集」改称作「数据仓库」

目前数据仓库下共有两个分类:

  • 模型:用于存放模型文件、与模型文件配合使用的代码等
  • 数据集:除了模型相关的内容外的其他数据都可以放在这里

数据仓库的创建

两个类型的数据仓库的创建有两个独立的入口。

创建数据集

创建模型

注意 同样作为数据仓库,「模型」下和「数据集」下不能出现相同名字的项目。

数据仓库类型的切换

在「设置」页面,允许对数据仓库的类型进行切换:

数据仓库之间的拷贝

为了方便用户数据集的管理,除了允许从执行的输出创建数据仓库版本外,也允许将某一个数据仓库的子目录重新创建为一个数据仓库版本:

如上图所示,在一个数据仓库版本的某一个目录下点击「复制当前目录到数据仓库」即可选择指定的数据仓库,点击创建后会把当前数据目录在目标数据仓库下创建一个新的数据仓库版本。在创建过程中新的数据仓库版本会标记为「处理中」状态,完成拷贝后数据仓库版本会标记为「处理完毕」,即可使用。

公开数据仓库

创建的数据仓库默认为「私有数据仓库」,在数据仓库的「设置」页面可以将整个数据仓库设置为「公共数据仓库」。所有的注册用户都可以通过 URL 访问该数据仓库。