企业RAG的可验证交付:检索质量门禁、引用证据包与安全路由


导语:
当日与近期的 AI 讨论正从“能不能回答”转向“能否可验证地回答”。企业落地 RAG 的核心挑战是:检索质量无法保证、引用不可复核、跨域越权风险、成本与时延不可控。本文给出可执行的交付方案:检索质量门禁、引用证据包、权限与成本路由,并附一周内可落地的 SOP。

1. 目标与指标

  • 质量:引用覆盖率 ≥ 90%,无引用断言 ≤ 3%,拒答合理率达标。
  • 安全:越权访问事件 = 0,跨域/跨租户访问需审计。
  • 成本与时延:P95 时延与 token 成本在预算内,超限自动降级。
  • 可复现:同版本的知识库/提示/策略可重放,支持审计与复盘。

2. 架构最小闭环

  1. 检索质量门禁:混合检索+重排,离线评测与在线影子比对,低分拒绝生成。
  2. 引用证据包:回答绑定 [doc:chunk],附 kb_version/prompt_version/policy_version 等字段。
  3. 安全路由:按租户/区域/敏感级别做路由与权限裁剪,敏感场景只读或严格拒答。
  4. 成本路由:高价值问题走强模型,低价值走轻量/缓存;预算超限自动降级。

3. 操作流程(可直接照抄)

3.1 数据与索引

  • 资产台账:源、责任人、敏感级别、用途、保留期。
  • 切分与标识:按章节/表格/代码段切分,生成 chunk_id
  • 版本化:索引/Embedding 版本号写入日志与证据包。

3.2 检索与重排

  • 多路检索:BM25 + 向量 + 结构化检索;记录命中与分数。
  • 重排与阈值:重排分低于阈值则拒答或提示补充上下文。
  • 召回日志:保存 topK 文档、分数、过滤条件,便于复盘。

3.3 生成与引用

  • 提示模板:强制“先证据后结论”“无证据拒答”,对高风险场景要求引用匹配。
  • 引用校验:输出前检查每段回答是否附引用;缺引用则降级/重试。
  • 断言抽取:提取数值/实体断言,校验是否被引用覆盖。

3.4 安全与权限

  • 权限映射:请求带租户/区域/角色,检索与工具调用按最小权限过滤。
  • 防注入:输入清洗与策略提示;高风险模式触发拒答。
  • 审计:记录路由决策、过滤条件、拒答原因。

3.5 成本与时延

  • 预算表:按场景/租户设 token/时延上限;超限自动降级或拒答。
  • 缓存:高频问答与片段缓存,命中则走轻量模型。
  • 观测:成本/时延/重试/缓存命中可视化,看板预警。

4. 评测与门禁

  1. 基准集:高频问题 + 关键流程 + 越权/注入场景。
  2. 离线评测:合并前、每日定时跑,输出通过率与失败样本。
  3. 影子评测:线上抽样影子执行,评测得分写入日志。
  4. 上线门禁:阈值不达标阻断或降级;需生成报告并入证据包。

5. Evidence Pack 字段(示例)

  • request_id/trace_id/user/tenant
  • kb_version/prompt_version/policy_version/routing_version
  • 检索:topK 文档ID/分数/过滤条件
  • 引用:回答段落->证据映射;断言抽取与覆盖结果
  • 安全:过滤/拒答原因、越权检查结果
  • 成本:token/时延/重试、缓存命中
  • 评测:离线/影子得分、阈值、动作(放行/降级/阻断)

6. 一周落地SOP

  • Day1:定义字段与版本号规范,准备评测集与预算表。
  • Day2-3:接入检索/重排埋点,生成证据包;跑一次离线评测。
  • Day4:上线影子评测与质量/成本看板。
  • Day5:接入成本路由与超限降级;验证告警。
  • Day6-7:跑门禁并灰度,输出评测与性能报告,形成复盘。

7. 风险提示

  • 引用不等于正确:需做引用一致性抽检与断言校验。
  • 越权风险:权限过滤要在检索与工具调用两侧同时做。
  • 成本漂移:重排/重试与长上下文会推高成本,需纳入预算。

结语:
RAG 要真正落地,必须“证据化+门禁+路由”。把检索质量、引用证据包与安全/成本路由做成默认流程,才能在合规与成本约束下稳定交付。


文章作者: 张显达
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 张显达 !
  目录