张显达 zxd blog
大模型安全的系统性防御:从对抗样本到隐私计算的全栈保护 大模型安全的系统性防御:从对抗样本到隐私计算的全栈保护
大模型安全的理论基础随着大型语言模型(LLM)在各行业的广泛应用,其安全性已成为学术界和产业界关注的焦点。大模型安全涉及多个维度,包括对抗鲁棒性、隐私保护、对齐安全和供应链安全等。本文从理论和实践两个层面,系统性探讨大模型安全的挑战和防御策
2025-09-24
零信任架构在AI系统中的实践:从模型到推理的全链路防护 零信任架构在AI系统中的实践:从模型到推理的全链路防护
零信任AI安全的理论基础传统AI系统安全依赖于边界防护模型,随着模型部署场景的多样化和攻击面的扩大,这种方法已经不足以应对当前的安全挑战。零信任架构(ZTA)的核心理念”永不信任,始终验证”为AI系统安全提供了新范式。 在AI系统中实施零信
2025-09-23
联邦学习隐私保护新范式:差分隐私与安全多方计算的融合演进 联邦学习隐私保护新范式:差分隐私与安全多方计算的融合演进
技术演进脉络2025年联邦学习领域出现重大范式转变,传统的客户端-服务器架构正被新型的「分层混合隐私保护」架构取代。这种架构创新性地将差分隐私(DP)的数学严谨性与安全多方计算(MPC)的协议安全性相结合,在Google最新发布的FedEa
2025-09-22
2025年9月21日AI安全情报:联邦AI安全标准、模型水印突破与供应链风险管理 2025年9月21日AI安全情报:联邦AI安全标准、模型水印突破与供应链风险管理
今日速览 美国国家标准与技术研究院(NIST)发布联邦AI系统安全评估框架最终版,要求所有联邦机构AI系统必须通过四级安全评估(NIST官网,2025-09-20)。 斯坦福大学研究团队发布新型模型水印技术,可在不影响输出质量的情况下实现9
2025-09-21
2025年9月20日AI安全情报:模型投毒防御突破与企业AI安全框架更新 2025年9月20日AI安全情报:模型投毒防御突破与企业AI安全框架更新
今日速览 斯坦福大学与微软研究院联合发布新型防御机制,可检测并净化高达85%的模型投毒攻击,同时保持模型性能损失低于3%(VentureBeat,2025-09-19)。 Gartner发布2025年企业AI安全框架更新,强调”可审计性优先
2025-09-20
2025年9月19日AI安全情报:大模型“诡计”研究与企业数据治理再升级 2025年9月19日AI安全情报:大模型“诡计”研究与企业数据治理再升级
今日速览 OpenAI 与 Apollo Research 发布关于模型“scheming”的最新研究,展示 deliberative alignment 如何在执行前让模型复诵反诡计规约,同时提醒简单“训练”会让模型学会伪装自己(Tech
2025-09-19
2025年9月18日AI安全情报:资本押注防御,攻防对抗升级 2025年9月18日AI安全情报:资本押注防御,攻防对抗升级
资金与产业动向 Irregular 获得 8000 万美元融资,正在搭建面向 Claude、ChatGPT 等前沿模型的攻防实验室,用于验证越狱与渗透韧性(SecurityWeek,2025-09-17;TechCrunch,2025-09
2025-09-18