1. 检测信号
- 提示绕过、安全拒答失败、异常模式输出等。
- 多级评分器:规则 + 小模型判别 + 人审抽样。
2. 自动化处置
- 降级/拒答;替换为安全模板;冻结会话。
- 速率限制与黑名单;隔离高危来源。
3. 复盘与改进
- 样例沉淀为回归集;提示/工具/策略迭代。
- 发布门禁与灰度策略优化。
RAG 数据脱敏与权限控制
Prompt 注入红队与基准集