1. 检测信号提示绕过、安全拒答失败、异常模式输出等。多级评分器:规则 + 小模型判别 + 人审抽样。2. 自动化处置降级/拒答;替换为安全模板;冻结会话。速率限制与黑名单;隔离高危来源。3. 复盘与改进样例沉淀为回归集;提示/工具/策略迭
2025-09-12