模型部署的管理
模型部署版本的状态
准备中
正在启动运行中
已经启动了,可以查看其运行的日志正在关闭
处于关闭的清理状态已关闭
该服务版本已经被成功关闭执行出错
由于某些特殊原因异常关闭了,可以尝试通过日志查看具体原因
其中处于 执行出错
和 已关闭
状态的模型部署版本成为非活跃状态,允许该版本被再次启动或者永久删除。
模型部署的监控指标
模型部署支持两种数据监控。
系统指标监控
系统监控指标说明
系统监控界面主要展示三类重要的资源使用指标:
CPU 利用率
- 分为用户态(user)和系统态(system)两种使用情况
- 显示总核心数配置
- 通过时间序列曲线展示 CPU 使用率的变化趋势
内存使用情况
- 显示当前已使用内存和总内存容量
- 计算得出内存使用率百分比
- 图表展示内存使用量的实时变化
GPU 使用情况
- 监控每个 GPU 设备的使用情况
- 包含两个关键指标:
- util: GPU 计算单元的使用率
- vram: GPU 显存的使用情况
- 鼠标悬停时可查看某个时间点的具体数值:
- 核心使用率百分比
- 显存使用量
这些指标以图表形式直观展示,帮助用户监控服务运行状态和资源使用趋势,便于及时发现潜在的性能问题。
请求用量监控
请求监控界面展示了服务的请求处理性能指标,包含以下关键维度: