新闻速读:Kubernetes 1.33正式发布
10月8日,Kubernetes社区发布1.33版本(代号“Halcyon”),亮点包括:AI原生工作负载支持、可组合控制平面、改进的运行时安全,以及OpenTelemetry集成。版本由Red Hat、Google Cloud、华为云、阿里云、微软Azure、SUSE等社区成员贡献。1.33 GA的特性包括BatchJob
、NodeLogQuery
、PodRange
。
关键特性解读
- AI原生工作负载(GA):引入
BatchJob
替代传统Job,支持分布式训练、推理任务的弹性伸缩、断点续跑,并与PodGroup
、ElasticQuota
联动。 - 可组合控制平面(Beta):通过“Control Plane Profiles”允许集群管理员按需加载控制器、API,构建针对AI、边缘、金融合规的定制控制平面,提升安全性与资源效率。
- NodeLogQuery(GA):新的日志查询API,允许集群管理员无需登录节点即可检索日志,支持RBAC访问控制。
- OpenTelemetry原生集成(GA):
kubelet
,scheduler
,controller-manager
原生输出OTel数据,简化可观测性配置。 - 安全增强:
ImageSignaturePolicy
进入Beta,可对容器镜像进行Sigstore签名验证;SecretImmutable
扩展至CSI Secret Store。
行业影响:K8s迈向“AI+定制化”
AI工作负载已成为主流需求,1.33对分布式训练、推理提供原生支持,减少第三方调度器依赖。可组合控制平面让金融、政务、边缘等行业可裁剪所需组件,降低攻击面。OpenTelemetry集成与安全增强让运维更自动化。
升级建议
- 评估BatchJob:将现有训练任务迁移至BatchJob,结合
BatchQueue
实现公平调度;测试断点续跑和抢占策略。 - 规划控制平面配置:定义控制平面Profiles,按需开启/禁用API,确保与现有Operator兼容。
- 接入OTel:将K8s原生OTel导出接入Grafana Tempo、Loki、Prometheus,实现统一观测。
- 落实镜像签名策略:结合
ImageSignaturePolicy
与Sigstore,制定镜像签名流程。 - 演练NodeLogQuery:更新运维工具链,改用API收集节点日志,减少SSH依赖。
案例分享:AI平台与金融企业的升级策略
一家AI云平台在1.33版本中启动BatchJob试点,管理几百个分布式训练任务。通过ElasticQuota与BatchQueue结合,平台将GPU利用率提升12%。他们还利用OpenTelemetry原生集成,将调度延迟、任务重试信息接入Tracing系统,识别出部分模型因数据分片不均导致的排队时间增加,并通过调度器插件优化优先级。
某大型金融企业则看重可组合控制平面的安全优势。升级后,他们将不需要的API(如StorageVersion
、NodeMetrics
)关闭,只保留业务必需的组件,并引入严格的策略即代码。为满足监管要求,企业使用NodeLogQuery替代人工SSH,构建审计日志库,做到所有运维操作可追踪。升级过程中,他们通过蓝绿控制平面实现平滑切换,避免对线上业务造成影响。
结语:Kubernetes进入“AI原生+可组合”的新篇章
1.33版本展示了Kubernetes在AI时代的演进方向。尽早升级并适配新特性,将帮助后端团队在复杂工作负载下保持敏捷与安全。