vLLM 部署与吞吐优化

无标签

人工智能

发布日期: 2025-09-12

1. 并发与批处理

动态批处理；请求合并；延迟与吞吐的权衡。

2. KV Cache 与内存

KV Cache 策略；显存/内存利用；流控与限速。

3. 部署与伸缩

GPU/多实例部署；路由与健康检查；弹性伸缩与成本。

张显达

https://zhangxianda.com/ai/vllm-deployment-optimization/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源张显达 !

无标签

上一篇

Tempo + Prometheus + Loki 统一可观测流水线

Tempo + Prometheus + Loki 统一可观测流水线

2025-09-12 后端

下一篇

Fenix — 比 MyBatis 更加强大的 Spring Data JPA 扩展库

Fenix — 比 MyBatis 更加强大的 Spring Data JPA 扩展库

2019-08-20 后端

Java JPA Fenix