大模型评测与安全治理入门

无标签

人工智能

发布日期: 2025-09-12

评测是保障交付质量的第一道防线；安全治理是保障可控与合规的最后一道防线。两者共同构成生产级 AI 应用的“护城河”。

评测维度

正确性：与参考答案一致或在可接受范围内。
相关性：回答是否紧扣问题，不额外发挥。
完整性：关键要点覆盖，引用与出处明确。
稳健性：对噪声输入、边界输入、对抗输入的鲁棒性。
成本/时延：单位成本与响应时延是否满足 SLO。

回归与自动化

构建数据集：任务样例、参考答案、可执行校验（正则/评分器/判别模型）。
自动回归：每次改动（提示、检索、模型版本）都触发评测并产出报告。
可视化：趋势、失败样例聚类、长尾分析，指导后续优化。

安全风险

越狱/提示注入：诱导模型违反约束；需做输入过滤、上下文隔离与响应审查。
数据泄露：对话中暴露敏感数据；需脱敏、权限控制与最小化收集。
幻觉：无依据的自信回答；需引用强约束、拒答机制与事后验证。

治理策略

输入治理：模板白名单、敏感词过滤、HTML/URL 隔离、文件型载荷判定。
输出治理：Schema/正则校验、规则与小模型判别器、人工抽检。
流程治理：关键操作二次确认、审计日志、可观测性与告警。

结语：没有评测与安全的 AI，无法稳定地服务业务。把“度量与约束”内建到系统里，是走向可持续演进的关键。

张显达

https://zhangxianda.com/ai/eval-and-safety/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源张显达 !

无标签

上一篇

LLM 函数调用最佳实践

LLM 函数调用最佳实践

2025-09-12 人工智能

下一篇

智能体设计与多工具编排

智能体设计与多工具编排

2025-09-12 人工智能