导语:
多模型路由已成为企业 AI 应用的主流:不同场景用不同模型、不同成本档,甚至在同一请求中动态决策。难点在于:策略不可验证、质量难度量、成本难收敛、越权与数据泄露风险。本文给出可执行的落地方案:策略分层、在线评测、成本护栏、审计证据包,并附一周上线 SOP。
1. 路由目标与指标
- 质量:关键场景通过率达到阈值(引用覆盖/无引用断言/拒答合理性)。
- 成本:token/时延/重试控制在预算内,超限自动降级。
- 安全:越权调用 = 0,敏感场景默认严格/只读。
- 可复现:同策略/版本可重放,方便审计与复盘。
2. 策略分层
- 场景分层:按业务任务(问答/生成/工具调用/代码)配置路由表。
- 风险分层:敏感/只读/写操作分层;敏感场景优先安全策略。
- 成本分层:高价值→强模型,低价值/高频→轻量或缓存;长文本优先摘要/检索。
- 兜底策略:主策略失败或超限时,切换到保守提示或拒答。
3. 在线评测与门禁
- 评测集版本化:高频问题、关键流程、越权/注入、安全红线。
- 离线回归:合并前/每日定时跑,通过率不达标阻断。
- 影子评测:线上抽样影子执行,写入日志与看板。
- 门禁阈值:引用覆盖、无引用断言、拒答合理性、时延/成本;不达标自动降级/阻断。
4. 成本护栏
- 预算表:按场景/租户设 token/时延/调用次数上限。
- 观测:成本/时延/重试/缓存命中看板;超阈值告警。
- 自动动作:超限 → 降级模型/缩短上下文/开启摘要/启用缓存/拒答。
5. 安全与合规
- 权限裁剪:检索与工具调用都按租户/区域/角色过滤。
- 数据最小化:敏感字段脱敏;日志与回放脱敏存储。
- 反注入:输入清洗;提示层明确“无证据拒答、敏感拒绝”。
- 审计:记录策略版本、路由决策、过滤/拒答原因。
6. Evidence Pack 字段
request_id/trace_id/user/tenantrouting_version/prompt_version/policy_version- 决策:候选模型、选择理由(分数/预算/风险)、兜底记录
- 评测:引用覆盖、无引用断言、拒答合理性、时延/成本
- 成本:token/时延/重试/缓存命中
- 安全:过滤/拒答原因、越权检查结果
7. 一周落地 SOP
- Day1:定义字段与版本规范,建立路由表与评测集、预算表。
- Day2:接入路由埋点与证据包,跑离线评测。
- Day3:上线影子评测与质量/成本看板。
- Day4:接入成本护栏与降级动作,验证告警。
- Day5-6:灰度 1%→10%→50%,覆盖峰值;记录差异报告。
- Day7:输出评测/性能/成本/安全报告,形成复盘与改进项。
8. 风险提示
- “只看质量不看成本”:重排/重试可能推高成本,需预算与降级。
- “只看成本不看安全”:敏感场景必须优先安全策略与审计。
- “策略不可验证”:路由决策需落日志与证据包,便于复盘与审计。
结语:
多模型路由要“可验证、可降级、可追溯”。把策略分层、在线评测、成本护栏和证据包做成默认流程,才能在质量、成本、安全之间取得可持续平衡。