1. 威胁模型
- 提示注入:用户输入/上下文中的恶意指令劫持系统目标。
- 越狱:诱导模型解除安全约束;数据外泄与危险动作。
2. 输入与上下文隔离
- 对用户输入与检索片段加“引号”/标记,提示模型不要信任。
- 不同来源隔离(系统/开发者/工具/用户);最小暴露。
3. 检测与防御
- 规则 + 小模型判别器;黑白名单;正则/Schema 校验。
- 输出约束:结构化回复;引用与证据链;拒答策略。
4. 审计与响应
- 记录可疑样例;自动化复测与签名;拉黑源。
- 蓝绿/灰度切换与回滚;上线门禁。
5. 最佳实践清单
- 分离角色与输入;最小化上下文;输出前后双重校验。
- 关键操作强制人工确认;详尽审计日志。