提示注入与越狱防护


1. 威胁模型

  • 提示注入:用户输入/上下文中的恶意指令劫持系统目标。
  • 越狱:诱导模型解除安全约束;数据外泄与危险动作。

2. 输入与上下文隔离

  • 对用户输入与检索片段加“引号”/标记,提示模型不要信任。
  • 不同来源隔离(系统/开发者/工具/用户);最小暴露。

3. 检测与防御

  • 规则 + 小模型判别器;黑白名单;正则/Schema 校验。
  • 输出约束:结构化回复;引用与证据链;拒答策略。

4. 审计与响应

  • 记录可疑样例;自动化复测与签名;拉黑源。
  • 蓝绿/灰度切换与回滚;上线门禁。

5. 最佳实践清单

  • 分离角色与输入;最小化上下文;输出前后双重校验。
  • 关键操作强制人工确认;详尽审计日志。

文章作者: 张显达
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 张显达 !
  目录