运行监控
运行监控用于观察网关是否健康,并快速定位失败请求。
关键指标
| 指标 | 说明 |
|---|---|
| QPS | 当前请求吞吐。 |
| 错误率 | 4xx、5xx 和上游错误比例。 |
| 延迟 | 请求耗时分布。 |
| 账号可用性 | 各平台可调度账号数量。 |
| 并发 | 用户、Key、账号的并发状态。 |
| 实时流量 | 当前请求路径、模型、平台和状态。 |
| 系统日志 | 后端运行日志和告警事件。 |
502 排查
502 通常不是用户鉴权问题,而是上游或网络链路失败。
处理顺序:
- 找到 request id。
- 查看错误日志中的账号 ID、平台、模型和上游 URL。
- 判断是单账号失败还是账号池整体失败。
- 如果是网络出口异常,替换该出口下相关账号的出口。
- 如果是账号额度或权限问题,标记账号不可调度。
- 如果是模型不可用,调整模型映射或下线模型。
告警建议
建议至少配置:
- 5xx 错误率告警。
- 上游连接失败告警。
- 可用账号数过低告警。
- 支付回调失败告警。
- Redis、PostgreSQL 连接异常告警。