运行时环境(镜像)概览
运行时环境中的通用依赖
OpenBayes 默认在运行时环境中包含了大量的基础依赖,以减少在每次容器启动时耗费运行资源进行依赖的下载与安装。
预先安装的依赖可以按照用途分为一下几个方面:
1. 通用机器学习类库
- scikit-learn 通用机器学习类库,包含了大量的机器学习模型、数据分析、数据挖掘算法以及可视化工具
- XGBoost 一个性能优异的 GBDT 模型实现,大量 kaggle 的获奖算法都在此算法之上构建
- ONNX 深度学习模型转换类库
- spaCy 工业级自然语言处理类库
- LightGBM 由微软推出的 boosting 框架
2. 图像处理工具
常用的图形处理类库
3. 数据分析类库
- pandas
- SciPy
- Matplotlib
- NumPy
- h5py
如何添加不在列表中的依赖
默认的 OpenBayes 运行时环境已经安装了大量的机器学习场景下的依赖,如果你依然需要额外的依赖,可以通过以下方式安装。
每个运行时环境所安装的 CUDA 版本有所不同,在安装额外的依赖时一定要注意和运行时环境中 CUDA 的环境相匹配。
安装 Python 的类库
如果你在上传代码并以「Python 脚本执行」的方式运行代码的时候需要一些额外的依赖,可以在在上传的代码的根目录定义一个名为 openbayes_requirements.txt
或者 requirements.txt
的文件并在里面添加需要的依赖和其他文件一并上传即可。在代码运行前,系统会首先安装这些依赖后再执行「python 脚本」。
该文件内容的格式和 Python 的 requirements.txt
格式是一致的,一个典型的 openbayes_requirements.txt
文件内容如下:
jieba
tqdm==4.11.2
其中 jieba
tqdm
是两个可以通过 pip
安装的类库,通过以上格式即可在执行「python 脚本」之前首先安装这些类库。tqdm==4.11.2
的 ==
之后指定了想要具体安装的版本。
系统中一些依赖如 tensorflow
pytorch
的版本不建议被随意修改,因为不同版本的 tensorflow
或者 pytorch
对其底层的依赖也是有区别的,可能导致当前环境的损坏。
通过 Conda 进行依赖管理
对于「工作空间」这部分见 用 Conda 管理依赖。
对于「Python 脚本执行」可以在上传的代码根目录下提供名为 conda-packages.txt
的文件,其文件格式遵循
[channel::]package[=version[=buildid]]
这里有一个样例:
conda-forge::rdkit
conda-forge::pygpu
如果 requirements.txt
、openbayes_requirements.txt
和 conda-packages.txt
同时存在,那么会首先安装 conda-packages.txt
里的依赖,然后再安装 openbayes_requirements.txt
以及 requirements.txt
中的依赖。
安装其他依赖
如果是在「Jupyter 工作空间」中可以参见下一部分。如果是「Python 脚本执行」场景你可以用以下方式安装额外的非 Python 的依赖:
-
将依赖安装命令包含在「执行命令」中
例如想要在运行程序前下载必要的 git 仓库,可以使用以下「执行命令」:
$ git clone https://github.com/tensorflow/models.git && cd models && python ...