企业级 RAG 蓝图:架构、实践与治理


1. 目标与边界

面向企业知识与流程的问答/助手,强调可追溯、可治理、可回归与低运维成本。

  • 目标:可信回答与来源引用、低幻觉率、统一评测与灰度机制。
  • 边界:仅回答授权范围内的问题;越权与无依据时优雅拒答。

2. 数据与知识库

  • 采集:结构化(DB/接口)、半结构化(表格/文档)、非结构化(PDF/网页)。
  • 清洗与切分:去重、模板化抽取;按语义切分并保留层级/页码。
  • 索引:Embedding + 向量库(pgvector/Milvus/FAISS),配合倒排与重排。
  • 权限:元数据中记录 ACL/租户/标签,检索阶段过滤。

3. 检索与生成

  • 召回:向量检索;必要时 BM25 混合检索;Top-k 召回 20–50。
  • 重排:cross-encoder 精排 5–8 段,显著降低幻觉与跑题。
  • 生成:提示模板注入片段;结构化输出(结论/要点/引用)。
  • 拒答策略:当证据不足时明确拒答并给出可能的下一步。

4. 智能体与工具

  • 函数调用:数据库/检索/业务接口;输出验证与异常回退。
  • 工作流:计划—执行—反馈;长时任务使用队列与状态机。

5. 评测与回归

  • 构建数据集:问答对/引用校验/拒答样例;覆盖关键业务域。
  • 自动回归:每次变更(数据/索引/提示/模型)触发评测与对比报告。
  • 指标:正确性、相关性、可追溯性、拒答准确性、成本与时延。

6. 安全与合规

  • 输入治理:越狱/提示注入防护、敏感词与数据脱敏。
  • 输出治理:Schema 校验、判别器/规则、人工抽检与追责。
  • 合规:隐私、留痕与审批;第三方模型的数据边界说明。

7. 参考选型

  • 模型/推理:OpenAI API、Anthropic、Google、vLLM/Ollama。
  • 框架:LangChain/LlamaIndex;评测:OpenAI Evals/自研。
  • 向量:pgvector/Milvus/Weaviate;重排:bge-reranker 等。

8. 交付与运维

  • 多环境:数据/索引与提示版本化;灰度与回滚流程。
  • 可观测:指标/日志/追踪齐全;质量看板与告警闭环。

文章作者: 张显达
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 张显达 !
  目录