提示注入与越狱防护

无标签

人工智能

发布日期: 2025-09-12

1. 威胁模型

提示注入：用户输入/上下文中的恶意指令劫持系统目标。
越狱：诱导模型解除安全约束；数据外泄与危险动作。

2. 输入与上下文隔离

对用户输入与检索片段加“引号”/标记，提示模型不要信任。
不同来源隔离（系统/开发者/工具/用户）；最小暴露。

3. 检测与防御

规则 + 小模型判别器；黑白名单；正则/Schema 校验。
输出约束：结构化回复；引用与证据链；拒答策略。

4. 审计与响应

记录可疑样例；自动化复测与签名；拉黑源。
蓝绿/灰度切换与回滚；上线门禁。

5. 最佳实践清单

分离角色与输入；最小化上下文；输出前后双重校验。
关键操作强制人工确认；详尽审计日志。

张显达

https://zhangxianda.com/ai/prompt-injection-defense/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源张显达 !

无标签

上一篇

RAG 压缩与多文档组装

RAG 压缩与多文档组装

2025-09-12 人工智能

下一篇

Playwright 视觉回归指南

Playwright 视觉回归指南

2025-09-12 前端