用 bayes 管理容器

bayes 命令行下有「工作目录」的概念，它对应着 OpenBayes 容器中的「输出」目录。通过命令行工具创建容器时需要首先把一个本地目录当作「工作目录」并与 OpenBayes 的「容器」建立映射关系，具体操作如下：

切换到需要执行的代码所在的目录 cd ~/openbayes-mnist-example
初始化一个新的容器 bayes gear init mnist-example 此时当前目录已经和 mnist-example 这个容器创建了映射关系，创建的「执行」都会出现在该容器下面

备注

使用 bayes gear ls 命令，可以查看你的所有容器

bayes gear init 命令可以使用已存在的容器名称或容器 ID 对当前目录进行容器初始化，若使用一个不存在的容器名称进行初始化，会创建一个新的容器。

准备工作完成之后，我们将来介绍一下几种接入方式的使用

通过命令行参数创建「Python 脚本执行」

通过命令 bayes gear run task -h 可以看到大量的样例提示如何创建一个「Python 脚本执行」。

我们这里先创建一个比较简单的版本：

$ bayes gear run task --env=pytorch-2.0 -- python main.py

当前正在组织 org1 上进行操作...
task_command 信息为: python main.py
正在上传源代码...
正在准备上传源代码...
正在获取上传授权...
开始扫描文件，请稍候...
共发现 9 个文件，总计 13.3 kB，开始上传...
上传进度: 100% (9/9): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 13.3k/13.3k [00:00<00:00, 44.0kB/s]

✅ 源代码上传成功! 已上传 9 个文件
正在向服务器请求创建容器...
容器创建成功
打开网页 https://openbayes.com/console/org1/jobs/fpyx2l77wtvh 可查看容器的详细信息

其中 -- 之后为执行的具体的命令，如果有 && 这样的符号，需要用引号进行保护 bayes gear run task -- 'echo 123 && python main.py'。

可以看到 bayes 将当前目录的文件上传并创建了一个「python 脚本」任务。

然后，我们尝试通过命令行参数，创建一个复杂一点的版本：

  bayes gear run task \
      --resource cpu \
      --env pytorch-2.0 \
      --data openbayes/eBIQp4yPMtU/1:/input0 \
      --data openbayes/sTggKplxyT6/1:/input1 \
      --data openbayes/bbNaMvDNqO9/1:/input2 \
      --data username/jobs/3s55ypc33ptl/output:/output \
      --message "task message" \
      --open \
      --follow \
      -- sleep 60

介绍一下几个可用的参数：

-e 或 --env 选择镜像，可供选择的镜像可以通过命令 bayes gear env 查询
-r 或 --resource 选择算力，可供选择的算力可以通过命令 bayes gear resource 查询
-d 或 --data 绑定数据，可供绑定的数据集可以通过命令 bayes gear bindings 查询
-m 或 --message 执行描述，可留空
-o 或 --open 将会在容器开始运行后，在浏览器打开相应的 web 界面
-f 或 --follow 跟踪运行容器的状态

信息

需要注意的是 --data openbayes/eBIQp4yPMtU/1:/input0 中， openbayes 是公有数据集的专用名，如果你想使用你自己的数据集，需要将 openbayes 替换为你的用户名，eBIQp4yPMtU 是数据集 ID，1 是数据集的版本号；:/input0，是将数据集绑定到 input0 中。

通过 openbayes.yaml 创建「Python 脚本执行」

另外，在通过 bayes gear init 将当前目录和容器绑定后目录下会出现文件 openbayes.yaml 内部初始化内容如下：

openbayes.yaml
## 有关「 OpenBayes 配置文件」的最新说明，请查阅 https://openbayes.com/docs/cli/config-file/

## data_bindings
#  指绑定的数据，支持「容器输出」以及「数据集」，最多同时绑定三个
#
#  一个完整的 data_bindings 样例如下：
#
#    data_bindings:
#      - data: openbayes/mnist/1
#        path: /input0
#        type: ro
#      - data: openbayes/jobs/jfaqJeLMcPM/output
#        path: /output
#        type: rw
#
#  亦可将 data_bindings 替换成 bindings， 简写成如下样例：
#
#    bindings:
#      - openbayes/mnist/1:/input0
#      - openbayes/mnist/1:/input1:rw
#      - openbayes/jobs/jfaqJeLMcPM/output:/output
#
data_bindings: []

## resource
#  指使用什么算力容器，通过命令 bayes gear resource 可以看到支持的算力类型
#
resource: "rtx-4090"

## env
#  指使用什么运行时环境，通过命令 bayes gear env 可以查看支持的运行时环境
#
env: "pytorch-2.6-2204"

## command
#  只有在创建「脚本执行」时需要，指任务执行时的入口命令
#
command: ""

## node
#  指定运行节点数量
#
node: 1

## parameters
#  支持 key / value 形式的参数，该参数会在容器执行时生成 openbayes_params.json 并补充在 command 参数后面
#  样例如下：
#
#    parameters:
#      input: /input0
#      epochs: 5
#
#    在执行时会生成一个内容为 {"input": "/input0", "epochs": 5} 的 openbayes_params.json，
#    并且会在执行命令后面追加 `--input=/input0 --epochs=5`
#
parameters: {}


## 有关「 OpenBayes 自动调参」的最新说明，请查阅 https://openbayes.com/docs/hypertuning/
#
#  一个完整的 hyper_tuning 样例如下：
#    hyper_tuning:
#      max_job_count: 3
#      hyperparameter_metric: precision
#      goal: MINIMIZE
#      algorithm: Bayesian
#      parameter_specs:
#      - name: regularization
#        type: DOUBLE
#        min_value: 0.001
#        max_value: 10.0
#        scale_type: UNIT_LOG_SCALE
#      - name: latent_factors
#        type: INTEGER
#        min_value: 5
#        max_value: 50
#        scale_type: UNIT_LINEAR_SCALE
#      - name: unobs_weight
#        type: DOUBLE
#        min_value: 0.001
#        max_value: 5.0
#        scale_type: UNIT_LOG_SCALE
#      - name: feature_wt_factor
#        type: DOUBLE
#        min_value: 1
#        max_value: 200
#        scale_type: UNIT_LOG_SCALE
#      - name: level
#        type: DISCRETE
#        discrete_values: [1, 2, 3, 4]
#      - name: category
#        type: CATEGORICAL
#        categorical_values: ["A", "B", "C"]
#
hyper_tuning:

  ## max_job_count
  #  一次自动调参的尝试次数，最多支持 100 次
  #
  max_job_count: 0

  ## parallel_count
  #  并行的尝试个数受限于用户的单个资源类型的最大并行个数，通常是 1 或者 2
  #
  parallel_count: "1"

  ## hyperparameter_metric
  #  目标变量
  #  有关目标变量的上报，请查阅 https://openbayes.com/docs/hypertuning/#2-上报目标变量
  hyperparameter_metric: ""

  ## goal
  #  最优解的方向 ( MAXIMIZE 或 MINIMIZE )
  #
  goal: ""

  ## algorithm
  #  采用的算法，支持的算法如下：
  #  Grid      对于只有 DISCRETE 以及 CATEGORICAL 类型参数的场景可以通过 GridSearch 遍历所有参数的组合
  #  Random    针对 INTEGER 以及 DOUBLE 类型，依据其所支持的分布类型，在 min_value 和 max_value 之间随机选择数值，对于 DISCRETE 和 CATEGORICAL 类型，其行为和 Grid 方式类似
  #  Bayesian  每次生成参数时考虑之前的「参数」-「目标变量」的结果，通过更新后的分布函数提供参数以期望获取更好的结果，其算法可以参考该文章
  #
  algorithm: ""

  ## parameter_specs
  #  输入参数的规约
  #  参数规约的定义请查阅：https://openbayes.com/docs/hypertuning/#参数规约的定义
  #
  parameter_specs: []

  ## side_metrics
  #  其他参考指标
  #
  side_metrics: []

其中 hyper_tuning 部分暂不介绍，但可以看到其他参数与 bayes gear run task 中使用的参数是一致的，通过在 openbayes.yaml 配置参数可以避免重复在使用 bayes gear run task 时重复输入参数。例如提供如下参数：

data_bindings:
  - data: openbayes/mnist/1     # 数据集的完整路径
    path: /input0               # 挂载到容器中的路径
    type: ro                    # 可选：ro（只读）或 rw（可读写）
resource: rtx-4090
env: pytorch-2.0
command: "python train.py -i /input0 -o ./model -e 2 -m model.h5 -l ./tf_dir"

信息

需要注意的是 openbayes/mnist/1 中，openbayes 是公有数据集的专用名，如果你想使用你自己的数据集，需要将 openbayes 替换为你的用户名，mnist 是数据集的名字，1 是数据集的版本号。

直接输入 bayes gear run task 命令即可执行一个在 pytorch-2.0 环境下，算力资源为 rtx-4090，绑定数据集 openbayes/mnist/1 到 /input0，入口命令为 python train.py -i /input0 -o ./model -e 2 -m model.h5 -l ./tf_dir 的任务了。

备注

更多有关配置文件如何编写的内容，见 OpenBayes 配置文件

创建「Jupyter 工作空间」

与「Python 脚本」的创建类似，通过命令行创建 Jupyter 默认会把当前目录下的文件上传到容器的「输出」中。

git clone https://github.com/practicalAI/practicalAI 下载 practicalAI 项目
cd practicalAI && bayes gear init practicalAI 初始化容器
bayes gear run workspace 创建 Jupyter

$ bayes gear run workspace -o -f

当前正在组织 org1 上进行操作...
正在向服务器请求创建容器...
容器创建成功
打开网页 https://openbayes.com/console/org1/jobs/52yaekv8nf91 可查看容器的详细信息
已成功打开浏览器.

容器运行中

备注

「Jupyter 工作空间」的创建和与「Python 脚本」的创建类似，可以通过命令行参数创建，也可以通过 openbayes.yaml 文件创建。

容器继续执行

使用 bayes gear status 命令，查看当前容器下的所有执行
使用 bayes gear restart 命令，传入已完成执行的 ID，可以以相同的参数再次运行该次执行。

$ bayes gear restart 52yaekv8nf91 -o -f

当前正在组织 org1 上进行操作...
容器继续执行...
打开网页 https://openbayes.com/console/org1/jobs/52yaekv8nf91 可查看容器 practicalAI 的详细信息
已成功打开浏览器.
⠸ CREATED

亦可以通过参数覆盖，修改部分参数，再次运行该次执行。

备注

restart 命令的选项与 run 命令的选项一致

$ bayes gear restart 52yaekv8nf91 \
      --resource cpu \
      --env pytorch-2.0 \
      --data openbayes/eBIQp4yPMtU/1:/input0 \
      --data openbayes/sTggKplxyT6/1:/input1 \
      --data openbayes/bbNaMvDNqO9/1:/input2 \
      --data username/jobs/3s55ypc33ptl/output:/output \
      --message "task message" \
      --open \
      --follow

当前正在组织 org1 上进行操作...
容器继续执行...
打开网页 https://openbayes.com/console/org1/jobs/52yaekv8nf91 可查看容器 practicalAI 的详细信息
已成功打开浏览器.

容器运行中

信息

需要注意的是 --data openbayes/eBIQp4yPMtU/1:/input0 中，openbayes 是公有数据集的专用名，如果你想使用你自己的数据集，需要将 openbayes 替换为你的用户名，eBIQp4yPMtU 是数据集 ID，1 是数据集的版本号；:/input0，是将数据集绑定到 input0 中。

关闭容器执行

使用 bayes gear stop 命令，传入运行中的容器执行 ID，可以关闭容器的该次执行。

$ bayes gear stop 52yaekv8nf91 -o -f

当前正在组织 org1 上进行操作...
同步数据并关闭容器
打开网页 https://openbayes.com/console/username/jobs/52yaekv8nf91 可查看容器 practicalAI 的详细信息
已成功打开浏览器.

容器已关闭

介绍一下几个可用的参数：

-o 或 --open 将会在容器开始关闭后，在浏览器打开相应的 web 界面
-f 或 --follow 会一直跟踪容器的状态，直到容器完全关闭

用命令行工具下载容器输出内容

1. 直接通过执行 ID 下载容器输出内容

使用 bayes gear download 命令，传入容器执行 ID，可以下载该容器的当前输出内容。

$ bayes gear download 5mx0ki1s5ej8 --target ~/Downloads/data-download-location -u

当前正在组织 org1 上进行操作...
正在下载中，请稍候
下载完成，文件保存在 ~/Downloads/data-download-location/cli-29.output.zip

正在解压中，请稍候
解压成功: 文件已解压到 ~/Downloads/data-download-location
已删除源文件:  ~/Downloads/data-download-location/cli-29.output.zip

介绍一下几个可用的参数：

-f 或 --from 指定下载的子路径，不填则下载整个输出
-t 或 --target 本地存在位置，不填则使用当前路径
-u 或 --unarchive 是否自动解压压缩包并删除源文件，不填则默认保留压缩包，不进行自动解压

备注

使用 -u 或 --unarchive 参数，要求 -t 或 --target 所选择的文件夹为空文件夹

2. 创建「Python 脚本执行」，并等待容器执行完成后下载输出内容

组合使用 bayes gear run task 和 bayes gear download 命令，将会等待「Python 脚本执行」完成后下载输出内容。

$ bayes gear run task -f && bayes gear download -t /Users/username/test-data-download -u

当前正在组织 org1 上进行操作...
command 信息为: sleep 1
正在上传源代码...
正在准备上传源代码...
正在获取上传授权...
开始扫描文件，请稍候...
共发现 10 个文件，总计 4.4 MB，开始上传...
上传进度: 100% (10/10): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4.43M/4.43M [00:05<00:00, 809kB/s]

✅ 源代码上传成功! 已上传 10 个文件
正在向服务器请求创建容器...
容器创建成功
打开网页 https://openbayes.com/console/org1/jobs/onl6jcbkgahd 可查看容器的详细信息

容器运行中
当前正在组织 org1 上进行操作...
正在下载中，请稍候
下载完成，文件保存在 /Users/username/test-data-download/test-cli.output.zip

正在解压中，请稍候
解压成功: 文件已解压到 /Users/username/test-data-download
已删除源文件: /Users/username/test-data-download/test-cli.output.zip

用命令行工具打开容器 web 界面

通过以下命令我们可以直接从命令行打开 web 界面：

$ bayes gear open 6q848lathbdp

当前正在组织 org1 上进行操作...
正在打开任务 https://beta.openbayes.com/console/org1/jobs/6q848lathbdp
正在跳转到浏览器...
已成功打开浏览器.

亦可以通过容器的名称打开

$ bayes gear open practicalAI

当前正在组织 org1 上进行操作...
正在打开容器 https://openbayes.com/console/org1/containers/6q848lathbdp
正在跳转到浏览器...
已成功打开浏览器.

或者，在容器执行命令最后加入 -o 参数，命令行工具将会在上传或合并完成后立即打开相应的 web 界面：

$ bayes gear run workspace -o -f

当前正在组织 org1 上进行操作...
正在向服务器请求创建容器...
容器创建成功
打开网页 https://openbayes.com/console/org1/jobs/52yaekv8nf91 可查看容器的详细信息
已成功打开浏览器.

容器运行中

备注

bayes gear 的 run restart stop 命令均可在命令的最后加入 -o 选项，命令行将会在容器到达目标状态后，在浏览器打开相应的 web 界面

用命令行工具跟踪容器日志及容器状态

1. 日志跟踪

通过命令 bayes gear logs 可以查看运行中的容器日志，加入 -f 或 --follow 参数会持续跟踪容器的日志打印

$ bayes gear logs 1ekrvwi6uyac -f

[I 14:41:01.149 LabApp] Writing notebook server cookie secret to /root/.local/share/jupyter/runtime/notebook_cookie_secret
[W 14:41:01.433 LabApp] All authentication is disabled.  Anyone who can connect to this server will be able to run code.
[I 14:41:01.749 LabApp] JupyterLab extension loaded from /usr/local/lib/python3.6/site-packages/jupyterlab
[I 14:41:01.750 LabApp] JupyterLab application directory is /usr/local/share/jupyter/lab
[I 14:41:01.758 LabApp] Serving notebooks from local directory: /openbayes
[I 14:41:01.758 LabApp] Jupyter Notebook 6.1.4 is running at:
[I 14:41:01.758 LabApp] http://username-1ekrvwi6uyac-main:8888/jobs/username/jobs/1ekrvwi6uyac/
[I 14:41:01.758 LabApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).
...
...
...

2. 状态跟踪

bayes gear 的子命令 run restart stop 都支持加入 -f 或 --follow 参数跟踪容器状态。

警告

状态跟踪只对「Python 脚本」及「 Jupyter工作空间」任务生效，对「自动调参」任务无效。

其中， run restart 命令：

对于「Python 脚本」任务，会跟踪到整个任务启动完成
对于「Jupyter 工作空间」任务，会跟踪到 Jupyter 工作空间启动完成
对于「自动调参」任务，--follow 参数不生效

stop 命令：

对于「Python 脚本」任务，会跟踪任务直到容器完全关闭
对于「Jupyter 工作空间」任务，会跟踪任务直到容器完全关闭
对于「自动调参」任务，--follow 参数不生效

通过命令行参数创建「Python 脚本执行」​

通过 openbayes.yaml 创建「Python 脚本执行」​

创建「Jupyter 工作空间」​

容器继续执行​

关闭容器执行​

用命令行工具下载容器输出内容​

1. 直接通过执行 ID 下载容器输出内容​

2. 创建「Python 脚本执行」，并等待容器执行完成后下载输出内容​

用命令行工具打开容器 web 界面​

用命令行工具跟踪容器日志及容器状态​

1. 日志跟踪​

2. 状态跟踪​

通过命令行参数创建「Python 脚本执行」

通过 openbayes.yaml 创建「Python 脚本执行」

创建「Jupyter 工作空间」

容器继续执行

关闭容器执行

用命令行工具下载容器输出内容

1. 直接通过执行 ID 下载容器输出内容

2. 创建「Python 脚本执行」，并等待容器执行完成后下载输出内容

用命令行工具打开容器 web 界面

用命令行工具跟踪容器日志及容器状态

1. 日志跟踪

2. 状态跟踪