张显达 zxd blog
09
12
智能体设计与多工具编排 智能体设计与多工具编排
智能体(Agent)是在给定目标下,能规划、调用工具、观测反馈并自我纠正的系统。本文聚焦工程中的可落地方案。 核心循环:计划—执行—反馈
2025-09-12
12
越狱检测与响应流程 越狱检测与响应流程
1. 检测信号提示绕过、安全拒答失败、异常模式输出等。多级评分器:规则 + 小模型判别 + 人审抽样。2. 自动化处置降级/拒答;替换为安全模板;冻结会话。速率限制与黑名单;隔离高危来源。3. 复盘与改进样例沉淀为回归集;提示/工具/策略迭
2025-09-12
12
RAG 数据脱敏与权限控制 RAG 数据脱敏与权限控制
1. 脱敏与分级字段级、模式级、上下文级脱敏;数据分级与访问策略。2. ACL 与 RLS检索阶段的权限过滤;数据库行级安全(RLS)配合 pgvector。3. 回答约束不可披露信息拒答;引用可追溯保障不越权。
2025-09-12
12
12
Prompt 注入红队与基准集 Prompt 注入红队与基准集
1. 样例采集真实流量与公开集;敏感策略与红队技巧。2. 对抗生成自动化生成攻击样例;多模板覆盖;多语言与变体。3. 评分与回归判别器/评分器;基线与趋势;发布门禁。
2025-09-12
12
工具调用安全:凭据、权限与审计 工具调用安全:凭据、权限与审计
1. 凭据管理密钥分环境/分权限;短期凭据;KMS/Secrets 管理。2. 权限最小化细粒度授权;关键操作双因子与人工确认。3. 审计留痕结构化记录参数/结果/耗时/操作者;可回放日志。
2025-09-12
12
12
12
12
112 / 113