导语:
多模态大模型已经能处理文/图/表/音,但要在生产环境稳定输出,需要“可验证的检索增强、可观测的工具编排、可追责的评测与安全、可控的成本护栏”。本文给出可执行的生产 SOP 与检查清单。
1. 场景分级与目标
- P0(合规/资金/隐私):人机共审,输出必须带引用与置信度;低置信度强制人工。
- P1(效率):设置信心阈值与兜底模板,引用率达标才自动发布。
- P2(探索):限流与预算,实验标签隔离日志与数据。
2. 数据与检索增强
- 切分:文档语义+结构混合;表格保留键列/单位;图像区域特征;音频转文本再切分。
- 检索:向量(多模态)+ BM25 + 结构化 DSL 融合排序;索引冷热分层、分片。
- 版本:嵌入/索引版本写入元数据;检索日志含
query/ctx/index_version/model_version/latency,可回放。
3. 工具编排与路由
- 路由:按模态与意图选择文-only/多模态模型、搜索/代码/数据库/计算工具;高风险双模型交叉验证。
- 编排:DSL/可视化工作流,节点可复用与版本化;链路可观测并产出审计。
- 记忆:高频问法缓存;长流程按“计划-执行-回顾”记录中间态。
4. 提示、对齐与安全
- 模板:强制引用、拒答、格式化;表格/代码用 JSON/SQL 约束;工具调用上限与温度控制。
- 安全:输入注入/越权/隐私检测;输出事实校验、敏感遮罩、拒答策略;外部接口限速与成本配额。
- 对齐:偏好数据分桶;拒答与安全评测纳入 CI,低于阈值阻断。
5. 评测与基线
- 集合:文本、图文、表格、多轮、长上下文,含拒答/越权样本。
- 指标:准确/引用率/拒答率/事实抽检、延迟、成本;召回/NDCG;工具成功率。
- CI:模型/提示/检索/编排变更必跑;结果入看板,低分阻断。
6. 成本与性能
- 监控:tokens、上下文长度、检索延迟、缓存/批处理/KV Cache 命中、工具耗时。
- 优化:分层索引、截断+检索补充、批处理/流式、轻量模型兜底、复用中间结果。
- 预算:接口/租户配额;超限自动降级或切轻量模型,事件写审计。
7. 部署与灰度
- 流程:评测→灰度 1%-5%-20%-全量,覆盖高峰。
- 观察:准确/引用/拒答/延迟/成本/安全拦截/工具成功率;停止条件自动回滚。
- 回滚:模型/索引/提示/工作流版本一键回退;30 分钟内验证核心指标。
8. 反馈与回溯
- 反馈池:用户纠错、低置信/低引用/拒答样本、人工审核;定期标注回流。
- 回溯索引:按
scene/model/index/workflow/dataset版本存档;请求可重放对比。 - 提示迭代:低引用样本驱动提示或重排;评测刷新后再灰度。
9. 安全与合规
- 输入:注入/隐私/涉政涉黄检测;图片人脸与敏感区域过滤。
- 输出:引用校验、敏感遮罩、拒答;高风险场景双模型交叉验证。
- 审计:请求→检索→引用→模型→工具→安全判定全链路可导出。
10. 周报与看板
- 质量:准确/引用/拒答/事实抽检,低分样本 TopN。
- 检索:召回/NDCG、延迟、缓存命中、索引版本。
- 成本:token/请求、批处理/缓存命中、降级次数与效果。
- 安全:拦截类型、误报/漏报、审计导出次数。
11. 操作示例
- CI 集成:
make eval跑基线+安全集,低于阈值退出非零;结果推送看板。 - 成本降级:监控 token 与延迟,超阈值自动切轻量模型或缩短上下文并记录事件。
- 证据包:灰度期间记录评测结果、模型/索引/提示/工作流版本、引用样本、拦截与降级日志,可导出。
结语:
把“检索增强 + 编排 + 评测基线 + 成本/安全护栏 + 回溯”做成默认动作,多模态智能才能在合规和成本可控下持续演进。