模型部署的管理
模型部署版本的状态
准备中
正在启动运行中
已经启动了,可以查看其运行的日志正在关闭
处于关闭的清理状态已关闭
该服务版本已经被成功关闭执行出错
由于某些特殊原因异常关闭了,可以尝试通过日志查看具体原因
其中处于 执行出错
和 已关闭
状态的模型部署版本成为非活跃状态,允许该版本被再次启动或者永久删除。
模型部署的监控指标
模型部署支持两种数据监控。
系统指标监控
系统监控指标说明
系统监控界面主要展示三类重要的资源使用指标:
CPU 利用率
- 分为用户态(user)和系统态(system)两种使用情况
- 显示总核心数配置
- 通过时间序列曲线展示 CPU 使用率的变化趋势
内存使用情况
- 显示当前已使用内存和总内存容量
- 计算得出内存使用率百分比
- 图表展示内存使用量的实时变化
GPU 使用情况
- 监控每个 GPU 设备的使用情况
- 包含两个关键指标:
- util: GPU 计算单元的使用率
- vram: GPU 显存的使用情况
- 鼠标悬停时可查看某个时间点的具体数值:
- 核心使用率百分比
- 显存使用量
这些指标以图表形式直观展示,帮助用户监控服务运行状态和资源使用趋势,便于及时发现潜在的性能问题。
请求用量监控
请求监控界面展示了服务的请求处理性能指标,包含以下关键维度:
请求数量统计
- 以柱状图形式展示请求数量(count)的时间分布
- 可选择不同的时间区间(5分钟、15分钟、30分钟等)查看统计数据
请求时间统计
通过多条曲线展示不同维度的请求处理时间指标:
- avg: 平均响应时间
- max: 最大响应时间
- 分位数统计:
- p50: 50分位数响应时间
- p75: 75分位数响应时间
- p90: 90分位数响应时间
- p95: 95分位数响应时间
- p99: 99分位数响应时间
数据查看方式
- 鼠标悬停可查看具体时间点的详细指标数据
- 支持查看指定时间范围内的请求统计
- 可通过图例选择显示/隐藏特定指标
- 右上角显示当前选中时间段的请求总数和各项统计指标
这些指标帮助用户全面了解服务的性能表现,可用于:
- 评估服务响应时间
- 发现性能瓶颈
- 分析请求处理能力
- 监控服务质量
模型部署的扩容
在创建模型部署是可以选择副本个数,副本个数越多,服务的负载能力越高。
在一个运行中的模型部署版本的「设置」页面可以更新其副本个数。
扩容后会展示多个实例。
在日志里也会展示每一个实例的日志:
同时系统指标也会按照实例个数分别展示:
注意
副本个数越多,服务负载能力越强,也意味着同样时间其对「计算资源」的消耗越大。
模型部署的更新
模型部署下可以包含多个版本,当创建或启动另一个模型部署版本后,运行中的模型部署版本将会被关闭,即同一个模型部署下只允许一个运行中的模型部署版本。
删除不需要的模型部署版本
可以删除非活跃的模型版本:
注意
模型部署版本依然处于活跃状态(即不处于「已关闭」或者「执行出错」状态)则无法被删除。
删除整个模型部署
如果整个模型部署都不再需要,可以在该模型部署的「设置」页面删除整个模型部署。
注意
模型部署如果有活跃的模型版本(即不处于「已关闭」或者「执行出错」状态),则该模型部署无法被删除。