1. 并发与批处理
- 动态批处理;请求合并;延迟与吞吐的权衡。
2. KV Cache 与内存
- KV Cache 策略;显存/内存利用;流控与限速。
3. 部署与伸缩
- GPU/多实例部署;路由与健康检查;弹性伸缩与成本。
Prompt 注入红队与基准集
pgvector 深入浅出