评测是保障交付质量的第一道防线;安全治理是保障可控与合规的最后一道防线。两者共同构成生产级 AI 应用的“护城河”。
评测维度
- 正确性:与参考答案一致或在可接受范围内。
- 相关性:回答是否紧扣问题,不额外发挥。
- 完整性:关键要点覆盖,引用与出处明确。
- 稳健性:对噪声输入、边界输入、对抗输入的鲁棒性。
- 成本/时延:单位成本与响应时延是否满足 SLO。
回归与自动化
- 构建数据集:任务样例、参考答案、可执行校验(正则/评分器/判别模型)。
- 自动回归:每次改动(提示、检索、模型版本)都触发评测并产出报告。
- 可视化:趋势、失败样例聚类、长尾分析,指导后续优化。
安全风险
- 越狱/提示注入:诱导模型违反约束;需做输入过滤、上下文隔离与响应审查。
- 数据泄露:对话中暴露敏感数据;需脱敏、权限控制与最小化收集。
- 幻觉:无依据的自信回答;需引用强约束、拒答机制与事后验证。
治理策略
- 输入治理:模板白名单、敏感词过滤、HTML/URL 隔离、文件型载荷判定。
- 输出治理:Schema/正则校验、规则与小模型判别器、人工抽检。
- 流程治理:关键操作二次确认、审计日志、可观测性与告警。
结语:没有评测与安全的 AI,无法稳定地服务业务。把“度量与约束”内建到系统里,是走向可持续演进的关键。