导语:
多模态(文本+图片/表格/音频)RAG 正在成为企业知识问答的新默认,但生产落地的难点并未减少:数据分层、引用可验证、权限与成本可控、跨模态评测缺失。本文给出可执行的多模态 RAG 落地方案:数据分层与版本化、引用证据链、权限/成本路由、跨模态评测门禁,并提供一周上线的 SOP 与检查清单。
1. 目标与指标
- 质量:引用覆盖率 ≥ 90%,无引用断言 ≤ 3%,跨模态引用一致性合格率 ≥ 95%。
- 安全:越权访问事件 = 0;敏感模态默认只读或严格拒答。
- 成本与时延:P95 时延与 token/embedding 成本在预算内,超限自动降级。
- 可复现:同版本的知识库/提示/路由可重放,支持审计与复盘。
2. 数据分层与版本化
- 资产台账:文本/表格/图像/音频分层,记录敏感级别、用途、来源、保留期。
- 切分策略:文本按章节/表格按行列/图片按区域(OCR+视觉 patch),生成可定位的
chunk_id。 - 版本化:索引/Embedding/视觉特征版本号写入日志与证据包,便于回滚。
3. 引用证据链(Evidence Pack)
- 每段回答必须绑定
[doc:chunk]引用,包含模态类型与坐标(如img:page1#bbox)。 - 证据包字段:
kb_version/prompt_version/policy_version/routing_version、检索结果、重排分数、引用映射、断言抽取与覆盖、成本/时延、拒答原因。 - 输出前做“引用校验”和“断言覆盖校验”,缺失则降级/重试/拒答。
4. 权限与安全路由
- 权限裁剪:请求携带租户/区域/角色,检索与工具调用按最小权限过滤。
- 模态隔离:敏感图片/音频默认仅摘要或拒答;跨域/跨租户严格拒绝。
- 反注入:输入清洗+提示防护;敏感场景优先拒答策略。
- 审计:记录过滤条件、拒答原因、路由决策。
5. 成本与时延路由
- 分层路由:高价值/高风险问题走强模型与完整上下文,低价值/高频走轻量模型或缓存。
- 预算表:按场景/模态/租户设 token/embedding/重排次数/时延上限,超限自动降级或拒答。
- 观测:成本/时延/重试/缓存命中看板,异常告警。
6. 跨模态评测与门禁
- 评测集:文本/表格/图片/多模态组合问答,含越权/注入/敏感场景。
- 指标:引用覆盖、跨模态一致性(引用与回答的模态匹配)、无引用断言、拒答合理性、时延/成本。
- 离线评测:合并前/每日定时跑;影子评测:线上抽样不影响用户。
- 门禁:阈值不达标→阻断或降级;报告入证据包。
7. 一周落地 SOP
- Day1:定义字段与版本规范,准备多模态评测集与预算表。
- Day2:接入检索/重排/引用埋点,生成证据包;跑一次离线评测。
- Day3:上线影子评测与质量/成本看板;配置权限/拒答策略。
- Day4:接入成本路由与超限降级;验证告警。
- Day5-6:灰度 1%→10%→50%,覆盖峰值;生成差异报告。
- Day7:输出评测/性能/安全报告,形成改进项与责任人。
8. 检查清单
- 版本:
kb/prompt/policy/routing写入日志与证据包。 - 权限:检索与工具调用双侧过滤;敏感模态默认拒答/只读。
- 评测:离线+影子门禁可运行,看板可视化。
- 成本:预算/降级策略可触发;缓存/摘要策略已验证。
- 证据:引用与断言校验启用;证据包可检索。
结语:
多模态 RAG 的核心仍是“证据化 + 安全路由 + 可验证评测”。把上述能力做成默认流程,才能在质量、成本、合规之间取得可持续平衡。