导语:
当日与近期的 AI 讨论正从“能不能回答”转向“能否可验证地回答”。企业落地 RAG 的核心挑战是:检索质量无法保证、引用不可复核、跨域越权风险、成本与时延不可控。本文给出可执行的交付方案:检索质量门禁、引用证据包、权限与成本路由,并附一周内可落地的 SOP。
1. 目标与指标
- 质量:引用覆盖率 ≥ 90%,无引用断言 ≤ 3%,拒答合理率达标。
- 安全:越权访问事件 = 0,跨域/跨租户访问需审计。
- 成本与时延:P95 时延与 token 成本在预算内,超限自动降级。
- 可复现:同版本的知识库/提示/策略可重放,支持审计与复盘。
2. 架构最小闭环
- 检索质量门禁:混合检索+重排,离线评测与在线影子比对,低分拒绝生成。
- 引用证据包:回答绑定
[doc:chunk],附kb_version/prompt_version/policy_version等字段。 - 安全路由:按租户/区域/敏感级别做路由与权限裁剪,敏感场景只读或严格拒答。
- 成本路由:高价值问题走强模型,低价值走轻量/缓存;预算超限自动降级。
3. 操作流程(可直接照抄)
3.1 数据与索引
- 资产台账:源、责任人、敏感级别、用途、保留期。
- 切分与标识:按章节/表格/代码段切分,生成
chunk_id。 - 版本化:索引/Embedding 版本号写入日志与证据包。
3.2 检索与重排
- 多路检索:BM25 + 向量 + 结构化检索;记录命中与分数。
- 重排与阈值:重排分低于阈值则拒答或提示补充上下文。
- 召回日志:保存 topK 文档、分数、过滤条件,便于复盘。
3.3 生成与引用
- 提示模板:强制“先证据后结论”“无证据拒答”,对高风险场景要求引用匹配。
- 引用校验:输出前检查每段回答是否附引用;缺引用则降级/重试。
- 断言抽取:提取数值/实体断言,校验是否被引用覆盖。
3.4 安全与权限
- 权限映射:请求带租户/区域/角色,检索与工具调用按最小权限过滤。
- 防注入:输入清洗与策略提示;高风险模式触发拒答。
- 审计:记录路由决策、过滤条件、拒答原因。
3.5 成本与时延
- 预算表:按场景/租户设 token/时延上限;超限自动降级或拒答。
- 缓存:高频问答与片段缓存,命中则走轻量模型。
- 观测:成本/时延/重试/缓存命中可视化,看板预警。
4. 评测与门禁
- 基准集:高频问题 + 关键流程 + 越权/注入场景。
- 离线评测:合并前、每日定时跑,输出通过率与失败样本。
- 影子评测:线上抽样影子执行,评测得分写入日志。
- 上线门禁:阈值不达标阻断或降级;需生成报告并入证据包。
5. Evidence Pack 字段(示例)
request_id/trace_id/user/tenantkb_version/prompt_version/policy_version/routing_version- 检索:topK 文档ID/分数/过滤条件
- 引用:回答段落->证据映射;断言抽取与覆盖结果
- 安全:过滤/拒答原因、越权检查结果
- 成本:token/时延/重试、缓存命中
- 评测:离线/影子得分、阈值、动作(放行/降级/阻断)
6. 一周落地SOP
- Day1:定义字段与版本号规范,准备评测集与预算表。
- Day2-3:接入检索/重排埋点,生成证据包;跑一次离线评测。
- Day4:上线影子评测与质量/成本看板。
- Day5:接入成本路由与超限降级;验证告警。
- Day6-7:跑门禁并灰度,输出评测与性能报告,形成复盘。
7. 风险提示
- 引用不等于正确:需做引用一致性抽检与断言校验。
- 越权风险:权限过滤要在检索与工具调用两侧同时做。
- 成本漂移:重排/重试与长上下文会推高成本,需纳入预算。
结语:
RAG 要真正落地,必须“证据化+门禁+路由”。把检索质量、引用证据包与安全/成本路由做成默认流程,才能在合规与成本约束下稳定交付。