Skip to content

运行监控

运行监控用于观察网关是否健康,并快速定位失败请求。

关键指标

指标说明
QPS当前请求吞吐。
错误率4xx、5xx 和上游错误比例。
延迟请求耗时分布。
账号可用性各平台可调度账号数量。
并发用户、Key、账号的并发状态。
实时流量当前请求路径、模型、平台和状态。
系统日志后端运行日志和告警事件。

502 排查

502 通常不是用户鉴权问题,而是上游或网络链路失败。

处理顺序:

  1. 找到 request id。
  2. 查看错误日志中的账号 ID、平台、模型和上游 URL。
  3. 判断是单账号失败还是账号池整体失败。
  4. 如果是网络出口异常,替换该出口下相关账号的出口。
  5. 如果是账号额度或权限问题,标记账号不可调度。
  6. 如果是模型不可用,调整模型映射或下线模型。

告警建议

建议至少配置:

  • 5xx 错误率告警。
  • 上游连接失败告警。
  • 可用账号数过低告警。
  • 支付回调失败告警。
  • Redis、PostgreSQL 连接异常告警。

Enodot 提供 AI API 接入管理与开发者网关服务。