跳到主要内容

模型部署的管理

模型部署版本的状态

  • 准备中 正在启动
  • 运行中 已经启动了,可以查看其运行的日志
  • 正在关闭 处于关闭的清理状态
  • 已关闭 该服务版本已经被成功关闭
  • 执行出错 由于某些特殊原因异常关闭了,可以尝试通过日志查看具体原因

其中处于 执行出错已关闭 状态的模型部署版本成为非活跃状态,允许该版本被再次启动或者永久删除。

模型部署的监控指标

模型部署支持两种数据监控。

系统指标监控

模型部署 - 系统指标

系统监控指标说明

系统监控界面主要展示三类重要的资源使用指标:

CPU 利用率

  • 分为用户态(user)和系统态(system)两种使用情况
  • 显示总核心数配置
  • 通过时间序列曲线展示 CPU 使用率的变化趋势

内存使用情况

  • 显示当前已使用内存和总内存容量
  • 计算得出内存使用率百分比
  • 图表展示内存使用量的实时变化

GPU 使用情况

  • 监控每个 GPU 设备的使用情况
  • 包含两个关键指标:
    • util: GPU 计算单元的使用率
    • vram: GPU 显存的使用情况
  • 鼠标悬停时可查看某个时间点的具体数值:
    • 核心使用率百分比
    • 显存使用量

这些指标以图表形式直观展示,帮助用户监控服务运行状态和资源使用趋势,便于及时发现潜在的性能问题。

请求用量监控

模型部署 - 请求指标

请求监控界面展示了服务的请求处理性能指标,包含以下关键维度:

请求数量统计

  • 以柱状图形式展示请求数量(count)的时间分布
  • 可选择不同的时间区间(5分钟、15分钟、30分钟等)查看统计数据

请求时间统计

通过多条曲线展示不同维度的请求处理时间指标:

  • avg: 平均响应时间
  • max: 最大响应时间
  • 分位数统计:
    • p50: 50分位数响应时间
    • p75: 75分位数响应时间
    • p90: 90分位数响应时间
    • p95: 95分位数响应时间
    • p99: 99分位数响应时间

数据查看方式

  • 鼠标悬停可查看具体时间点的详细指标数据
  • 支持查看指定时间范围内的请求统计
  • 可通过图例选择显示/隐藏特定指标
  • 右上角显示当前选中时间段的请求总数和各项统计指标

这些指标帮助用户全面了解服务的性能表现,可用于:

  • 评估服务响应时间
  • 发现性能瓶颈
  • 分析请求处理能力
  • 监控服务质量

模型部署的扩容

在创建模型部署是可以选择副本个数,副本个数越多,服务的负载能力越高。

在一个运行中的模型部署版本的「设置」页面可以更新其副本个数。

扩容后会展示多个实例。

模型部署 - 多个实例

在日志里也会展示每一个实例的日志:

模型部署 - 多个实例日志

同时系统指标也会按照实例个数分别展示:

模型部署 - 多个实例 - 指标展示 1

模型部署 - 多个实例 - 指标展示 2

注意

副本个数越多,服务负载能力越强,也意味着同样时间其对「计算资源」的消耗越大。

模型部署的更新

模型部署下可以包含多个版本,当创建或启动另一个模型部署版本后,运行中的模型部署版本将会被关闭,即同一个模型部署下只允许一个运行中的模型部署版本。

删除不需要的模型部署版本

可以删除非活跃的模型版本:

注意

模型部署版本依然处于活跃状态(即不处于「已关闭」或者「执行出错」状态)则无法被删除。

删除整个模型部署

如果整个模型部署都不再需要,可以在该模型部署的「设置」页面删除整个模型部署。

注意

模型部署如果有活跃的模型版本(即不处于「已关闭」或者「执行出错」状态),则该模型部署无法被删除。