1. 目标与边界
面向企业知识与流程的问答/助手,强调可追溯、可治理、可回归与低运维成本。
- 目标:可信回答与来源引用、低幻觉率、统一评测与灰度机制。
- 边界:仅回答授权范围内的问题;越权与无依据时优雅拒答。
2. 数据与知识库
- 采集:结构化(DB/接口)、半结构化(表格/文档)、非结构化(PDF/网页)。
- 清洗与切分:去重、模板化抽取;按语义切分并保留层级/页码。
- 索引:Embedding + 向量库(pgvector/Milvus/FAISS),配合倒排与重排。
- 权限:元数据中记录 ACL/租户/标签,检索阶段过滤。
3. 检索与生成
- 召回:向量检索;必要时 BM25 混合检索;Top-k 召回 20–50。
- 重排:cross-encoder 精排 5–8 段,显著降低幻觉与跑题。
- 生成:提示模板注入片段;结构化输出(结论/要点/引用)。
- 拒答策略:当证据不足时明确拒答并给出可能的下一步。
4. 智能体与工具
- 函数调用:数据库/检索/业务接口;输出验证与异常回退。
- 工作流:计划—执行—反馈;长时任务使用队列与状态机。
5. 评测与回归
- 构建数据集:问答对/引用校验/拒答样例;覆盖关键业务域。
- 自动回归:每次变更(数据/索引/提示/模型)触发评测与对比报告。
- 指标:正确性、相关性、可追溯性、拒答准确性、成本与时延。
6. 安全与合规
- 输入治理:越狱/提示注入防护、敏感词与数据脱敏。
- 输出治理:Schema 校验、判别器/规则、人工抽检与追责。
- 合规:隐私、留痕与审批;第三方模型的数据边界说明。
7. 参考选型
- 模型/推理:OpenAI API、Anthropic、Google、vLLM/Ollama。
- 框架:LangChain/LlamaIndex;评测:OpenAI Evals/自研。
- 向量:pgvector/Milvus/Weaviate;重排:bge-reranker 等。
8. 交付与运维
- 多环境:数据/索引与提示版本化;灰度与回滚流程。
- 可观测:指标/日志/追踪齐全;质量看板与告警闭环。