用 bayes 管理容器

最后更新于

bayes 命令行下有「工作目录」的概念,它对应着 OpenBayes 容器中的「输出」目录。通过命令行工具创建容器时需要首先把一个本地目录当作「工作目录」并与 OpenBayes 的「容器」建立映射关系,具体操作如下:

  1. 切换到需要执行的代码所在的目录 cd ~/openbayes-mnist-example
  2. 初始化一个新的容器 bayes gear init mnist-example 此时当前目录已经和 mnist-example 这个容器创建了映射关系,创建的「执行」都会出现在该容器下面

使用 ` bayes gear ls` 命令,可以查看你的所有容器

bayes gear init 命令可以使用已存在的容器名称或容器 ID 对当前目录进行容器初始化,若使用一个不存在的容器名称进行初始化,会创建一个新的容器。

准备工作完成之后,我们将来介绍一下几种接入方式的使用

通过命令行参数创建「Python 脚本执行」

通过命令 bayes gear run task -h 可以看到大量的样例提示如何创建一个「Python 脚本执行」。

我们这里先创建一个比较简单的版本:

$ bayes gear run task --env=tensorflow-1.15 -- python main.py

正在向服务器发送上传请求...
服务器已响应
正在读取文件列表,请稍候...
共有文件 95 个
正在检查 .openbayesignore 文件...
已剔除 .openbayesignore 忽略列表中的文件及文件夹
正在压缩代码...
压缩代码完成
正在初始化上传中...
正在上传压缩包。总共上传大小: 49.31 MiB
49.31 MiB / 49.31 MiB [=================================]  100 %  4.21 MiB/s
正在移除已完成上传的压缩包
代码上传成功
正在向服务器请求创建容器...
容器创建成功
容器正在启动中...
打开网页 https://openbayes.com/console/username/containers/d1JKTyFQq1W/isqgy7idosrk 可查看容器 mnist-example 的详细信息

其中 -- 之后为执行的具体的命令,如果有 && 这样的符号,需要用引号进行保护 bayes gear run task -- 'echo 123 && python main.py'

可以看到 bayes 将当前目录的文件上传并创建了一个「python 脚本」任务,相比通过 web 界面上传 zip 包的体验是好了很多。

然后,我们尝试通过命令行参数,创建一个复杂一点的版本:

  bayes gear run task \
      --resource cpu \
      --env tensorflow-1.15 \
      --data openbayes/eBIQp4yPMtU/1:/input0 \
      --data openbayes/sTggKplxyT6/1:/input1 \
      --data openbayes/bbNaMvDNqO9/1:/input2 \
      --data username/jobs/3s55ypc33ptl/output:/output \
      --message "task message" \
      --open \
      --follow \
      -- sleep 60

介绍一下几个可用的参数:

  • -e--env 选择镜像,可供选择的镜像可以通过命令 bayes gear env 查询
  • -r--resource 选择算力,可供选择的算力可以通过命令 bayes gear resource 查询
  • -d--data 绑定数据,可供绑定的数据集可以通过命令 bayes gear bindings 查询
  • -m--message 执行描述,可留空
  • -o--open 将会在容器开始运行后,在浏览器打开相应的 web 界面
  • -f--follow 跟踪运行容器的状态

需要注意的是 --data openbayes/eBIQp4yPMtU/1:/input0 中, openbayes 是公有数据集的专用名,如果你想使用你自己的数据集,需要将 openbayes 替换为你的用户名,通过 bayes gear bindings 命令可以查看最近的可绑定数据mnist 是数据集的名字, 1 是数据集的版本号, /input0 代表绑定数据集到 input0

通过 openbayes.yaml 创建「Python 脚本执行」

另外,在通过 bayes gear init 将当前目录和容器绑定后目录下会出现文件 openbayes.yaml 内部初始化内容如下:

## 有关「 OpenBayes 配置文件」的最新说明,请查阅 https://openbayes.com/docs/cli/config-file/

## data_bindings
#  指绑定的数据,支持「容器输出」以及「数据集」,最多同时绑定三个
#
#  一个完整的 data_bindings 样例如下:
#
#    data_bindings:
#      - data: openbayes/mnist/1
#        path: /input0
#      - data: openbayes/jobs/jfaqJeLMcPM/output
#        path: output
#
#  亦可将 data_bindings 替换成 bindings, 简写成如下样例:
#
#    bindings:
#      - openbayes/mnist/1:/input0
#      - openbayes/jobs/jfaqJeLMcPM/output:/output
#
data_bindings: []

## resource
#  指使用什么算力容器,通过命令 bayes gear resource 可以看到支持的算力类型
#
resource: tiny-cpu

## env
#  指使用什么运行时环境,通过命令 bayes gear env 可以查看支持的运行时环境
#
env: tensorflow-1.15

## command
#  只有在创建「脚本执行」时需要,指任务执行时的入口命令
#
command: ""


## parameters
#  支持 key / value 形式的参数,该参数会在容器执行时生成 openbayes_params.json 并补充在 command 参数后面
#  样例如下:
#
#    parameters:
#      input: /input0
#      epochs: 5
#
#    在执行时会生成一个内容为 {"input": "/input0", "epochs": 5} 的 openbayes_params.json,
#    并且会在执行命令后面追加 `--input=/input0 --epochs=5`
#
parameters: {}


## 有关「 OpenBayes 自动调参」的最新说明,请查阅 https://openbayes.com/docs/hypertuning/
#
#  一个完整的 hyper_tuning 样例如下:
#    hyper_tuning:
#      max_job_count: 3
#      hyperparameter_metric: precision
#      goal: MINIMIZE
#      algorithm: Bayesian
#      parameter_specs:
#      - name: regularization
#        type: DOUBLE
#        min_value: 0.001
#        max_value: 10.0
#        scale_type: UNIT_LOG_SCALE
#      - name: latent_factors
#        type: INTEGER
#        min_value: 5
#        max_value: 50
#        scale_type: UNIT_LINEAR_SCALE
#      - name: unobs_weight
#        type: DOUBLE
#        min_value: 0.001
#        max_value: 5.0
#        scale_type: UNIT_LOG_SCALE
#      - name: feature_wt_factor
#        type: DOUBLE
#        min_value: 1
#        max_value: 200
#        scale_type: UNIT_LOG_SCALE
#      - name: level
#        type: DISCRETE
#        discrete_values: [1, 2, 3, 4]
#      - name: category
#        type: CATEGORICAL
#        categorical_values: ["A", "B", "C"]
#
hyper_tuning:

  ## max_job_count
  #  一次自动调参的尝试次数,最多支持 100 次
  #
  max_job_count: 0

  ## parallel_count
  #  并行的尝试个数受限于用户的单个资源类型的最大并行个数,通常是 1 或者 2
  #
  parallel_count: 1

  ## hyperparameter_metric
  #  目标变量
  #  有关目标变量的上报,请查阅 https://openbayes.com/docs/hypertuning/#2-上报目标变量
  hyperparameter_metric: ""

  ## goal
  #  最优解的方向 ( MAXIMIZE 或 MINIMIZE )
  #
  goal: ""

  ## algorithm
  #  采用的算法,支持的算法如下:
  #  Grid      对于只有 DISCRETE 以及 CATEGORICAL 类型参数的场景可以通过 GridSearch 遍历所有参数的组合
  #  Random    针对 INTEGER 以及 DOUBLE 类型,依据其所支持的分布类型,在 min_value 和 max_value 之间随机选择数值,对于 DISCRETE 和 CATEGORICAL 类型,其行为和 Grid 方式类似
  #  Bayesian  每次生成参数时考虑之前的「参数」-「目标变量」的结果,通过更新后的分布函数提供参数以期望获取更好的结果,其算法可以参考该文章
  #
  algorithm: ""

  ## parameter_specs
  #  输入参数的规约
  #  参数规约的定义请查阅:https://openbayes.com/docs/hypertuning/#参数规约的定义
  #
  parameter_specs: []

  ## side_metrics
  #  其他参考指标
  #
  side_metrics: []

其中 hyper_tuning 部分暂不介绍,但可以看到其他参数与 bayes gear run task 中使用的参数是一致的,通过在 openbayes.yaml 配置参数可以避免重复在使用 bayes gear run task 时重复输入参数。例如提供如下参数:

data_bindings:
  - data: openbayes/mnist/1
    path: /input0
resource: t4
env: tensorflow-1.15
command: "python train.py -i /input0 -o ./model -e 2 -m model.h5 -l ./tf_dir"

需要注意的是 data: openbayes/mnist/1 中,openbayes 是公有数据集的专用名,如果你想使用你自己的数据集,需要将 openbayes 替换为你的用户名mnist 是数据集的名字,1 是数据集的版本号;path: /input0,是将数据集绑定到 input0 中。

直接输入 bayes gear run task 命令即可执行一个在 tensorflow-1.15 环境下,算力资源为 t4,绑定数据集 openbayes/mnist/1/input0,入口命令为 python train.py -i /input0 -o ./model -e 2 -m model.h5 -l ./tf_dir 的任务了。

更多有关配置文件如何编写的内容,见 OpenBayes 配置文件

创建「Jupyter 工作空间」

与「Python 脚本」的创建类似,通过命令行创建 Jupyter 默认会把当前目录下的文件上传到容器的「输出」中。

  1. git clone https://github.com/practicalAI/practicalAI 下载 practicalAI 项目
  2. cd practicalAI && bayes gear init practicalAI 初始化容器
  3. bayes gear run notebook 创建 Jupyter
$ bayes gear run notebook-o -f

正在向服务器发送上传请求...
服务器已响应
正在读取文件列表,请稍候...
剔除在 .openbayesignore 中忽略的文件及文件夹...
共有文件 99 个
正在压缩代码...
压缩代码完成
正在初始化上传中...
正在上传压缩包。总共上传大小: 9.28 MiB
9.28 MiB / 9.28 MiB [=================================]  100 %  5.14 MiB/s
正在进行清理工作
代码上传成功
正在向服务器请求创建容器...
容器创建成功
打开网页 https://openbayes.com/console/username/containers/CUEtgUJHidb/ri4nft12g18c 可查看容器 practicalAI 的详细信息
 ⠴ 准备中
容器运行中
正在跳转到浏览器...
已成功打开浏览器

「Jupyter 工作空间」的创建和与「Python 脚本」的创建类似,可以通过命令行参数创建,也可以通过 openbayes.yaml 文件创建。

容器继续执行

使用 bayes gear status 命令,查看当前容器下的所有执行

使用 bayes gear restart 命令,传入已完成执行的 ID,可以以相同的参数再次运行该次执行。

$ bayes gear restart 52yaekv8nf91 -o -f

容器继续执行...
打开网页 https://openbayes.com/console/username/jobs/6q848lathbdp 可查看容器 practicalAI 的详细信息
 ⠹ 准备中
容器运行中
正在跳转到浏览器...
已成功打开浏览器

亦可以通过参数覆盖,修改部分参数,再次运行该次执行。

restart 命令的选项与 run 命令的选项一致

$ bayes gear restart 52yaekv8nf91 \
      --resource cpu \
      --env tensorflow-1.15 \
      --data openbayes/eBIQp4yPMtU/1:/input0 \
      --data openbayes/sTggKplxyT6/1:/input1 \
      --data openbayes/bbNaMvDNqO9/1:/input2 \
      --data username/jobs/3s55ypc33ptl/output:/output \
      --message "task message" \
      --open \
      --follow

容器继续执行...
打开网页 https://openbayes.com/console/username/jobs/6q848lathbdp 可查看容器 practicalAI 的详细信息
 ⠹ 准备中
容器运行中
正在跳转到浏览器...
已成功打开浏览器

需要注意的是 --data openbayes/eBIQp4yPMtU/1:/input0 中,openbayes 是公有数据集的专用名,如果你想使用你自己的数据集,需要将 openbayes 替换为你的用户名eBIQp4yPMtU 是数据集 ID,1 是数据集的版本号;:/input0,是将数据集绑定到 input0 中。

关闭容器执行

使用 bayes gear stop 命令,传入运行中的容器执行 ID,可以关闭容器的该次执行。

$ bayes gear stop 52yaekv8nf91 -o -f

同步数据并关闭容器
打开网页 https://openbayes.com/console/username/jobs/52yaekv8nf91 可查看容器 practicalAI 的详细信息
正在跳转到浏览器...
已成功打开浏览器
 ⠦ 正在关闭
容器已关闭

介绍一下几个可用的参数:

  • -o--open 将会在容器开始关闭后,在浏览器打开相应的 web 界面
  • -f--follow 会一直跟踪容器的状态,直到容器完全关闭

用命令行工具下载容器输出内容

1. 直接通过执行 ID 下载容器输出内容

使用 bayes gear download 命令,传入容器执行 ID,可以下载该容器的当前输出内容。

$ bayes gear download 5mx0ki1s5ej8 --target ~/Downloads/data-download-location --unarchive

正在下载中,请稍候
下载完成,文件保存在 ~/Downloads/data-download-location/cli-29.output.zip
正在解压中,请稍候
解压完成,文件保存在 ~/Downloads/data-download-location
压缩包 ~/Downloads/data-download-location/cli-29.output.zip 已删除

介绍一下几个可用的参数:

  • -f--from 指定下载的子路径,不填则下载整个输出
  • -t--target 本地存在位置,不填则使用当前路径
  • -u--unarchive 是否自动解压压缩包并删除源文件,不填则默认保留压缩包,不进行自动解压

使用 --unarchive 参数,要求 --target 所选择的文件夹为空文件夹

2. 创建「Python 脚本执行」,并等待容器执行完成后下载输出内容

组合使用 bayes gear run taskbayes gear download 命令,将会等待「Python 脚本执行」完成后下载输出内容。

$ bayes gear run task -f && bayes gear download -t ~/Downloads/data-download-location -u
正在向服务器发送上传请求...
服务器已响应
正在读取文件列表,请稍候...
剔除在 .openbayesignore 中忽略的文件及文件夹...
共有文件 18 个
正在压缩代码...
压缩代码完成
正在初始化上传中...
正在上传压缩包。总共上传大小: 8.88 MiB
8.88 MiB / 8.88 MiB [==========================================================]  100 %  1.90 MiB/s
正在进行清理工作
代码上传成功
正在向服务器请求创建容器...
容器创建成功
打开网页 https://openbayes.com/console/username/jobs/mktv6fo5drjy 可查看容器 cli 的详细信息
容器运行中
容器日志:
暂无日志
 ⠦ 运行中
容器执行完毕
正在下载中,请稍候
下载完成,文件保存在 ~/Downloads/data-download-location/cli-49.output.zip
正在解压中,请稍候
解压完成,文件保存在 ~/Downloads/data-download-location
压缩包 ~/Downloads/data-download-location/cli-49.output.zip 已删除

用命令行工具打开容器 web 界面

通过以下命令我们可以直接从命令行打开 web 界面:

$ bayes gear open 6q848lathbdp
正在打开容器 https://openbayes.com/console/username/jobs/6q848lathbdp
正在跳转到浏览器...

亦可以通过容器的名称打开

$ bayes gear open practicalAI
正在打开容器 https://openbayes.com/console/username/jobs/6q848lathbdp
正在跳转到浏览器...

或者,在容器执行命令最后加入 -o 参数,命令行工具将会在上传或合并完成后立即打开相应的 web 界面:

$ bayes gear run notebook -o -f

正在向服务器发送上传请求...
服务器已响应
正在读取文件列表,请稍候...
剔除在 .openbayesignore 中忽略的文件及文件夹...
共有文件 102 个
正在压缩代码...
压缩代码完成
正在初始化上传中...
正在上传压缩包。总共上传大小: 877.42 KiB
877.42 KiB / 877.42 KiB [==========================================================]  100 %  969.85 KiB/s
正在进行清理工作
代码上传成功
正在向服务器请求创建容器...
容器创建成功
打开网页 https://openbayes.com/console/username/jobs/1ekrvwi6uyac 可查看容器 test111 的详细信息
 ⠴ 准备中
容器运行中
正在跳转到浏览器...
已成功打开浏览器

bayes gearrun restart stop 命令均可在命令的最后加入 -o 选项,命令行将会在容器到达目标状态后,在浏览器打开相应的 web 界面

用命令行工具跟踪容器日志及容器状态

1. 日志跟踪

通过命令 bayes gear logs 可以查看运行中的容器日志,加入 -f--follow 参数会持续跟踪容器的日志打印

$ bayes gear logs 1ekrvwi6uyac -f

[I 14:41:01.149 LabApp] Writing notebook server cookie secret to /root/.local/share/jupyter/runtime/notebook_cookie_secret
[W 14:41:01.433 LabApp] All authentication is disabled.  Anyone who can connect to this server will be able to run code.
[I 14:41:01.749 LabApp] JupyterLab extension loaded from /usr/local/lib/python3.6/site-packages/jupyterlab
[I 14:41:01.750 LabApp] JupyterLab application directory is /usr/local/share/jupyter/lab
[I 14:41:01.758 LabApp] Serving notebooks from local directory: /openbayes
[I 14:41:01.758 LabApp] Jupyter Notebook 6.1.4 is running at:
[I 14:41:01.758 LabApp] http://username-1ekrvwi6uyac-main:8888/jobs/username/jobs/1ekrvwi6uyac/
[I 14:41:01.758 LabApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).
...
...
...

2. 状态跟踪

bayes gear 的子命令 run restart stop 都支持加入 -f--follow 参数跟踪容器状态。

但只对「Python 脚本」 及「 Jupyter工作空间」任务生效,对「 自动调参」任务无效。

其中, run restart 命令:

  • 对于 「Python 脚本」 任务,会跟踪到整个任务执行完成
  • 对于 「Jupyter 工作空间」任务,会跟踪到 JupyterLab 启动完成
  • 对于 「 自动调参」任务,--follow 参数不生效

stop 命令:

  • 对于 「Python 脚本」 任务,会跟踪任务直到容器完全关闭
  • 对于 「Jupyter 工作空间」任务,会跟踪任务直到容器完全关闭
  • 对于 「 自动调参」任务,--follow 参数不生效