|
- 大模型推理框架,SGLang和vLLM有哪些区别? - 知乎
文章中的TODO有待补充,第一次认真写知乎,有任何问题欢迎大家在评论区指出 官方vllm和sglang均已支持deepseek最新系列模型(V3,R),对于已经支持vllm和sglang的特定硬件(对vllm和sglang做了相应的修改,并且已经支持deepseek-v2),为了同样支持deekseek最新系列模型,需要根据最新模型所做改进进行对应修改
- 如何看待vllm-project vllm-ascend, vLLM原生支持华为昇腾?
vLLM Ascend即将在昇腾平台支持vLLM多个高阶特性,如请求调度算法chunked prefill,大模型分布式并行策略 TensorParallelism (TP)、Pipeline Parallelism (PP),投机解码speculativedecoding等,开源社区最新加速能力平滑迁移,支持昇腾平台高性能推理。
- 多机多卡docker部署vllm - 知乎
2 启动容器 build镜像后,分别在2台机器上启动容器,docker run的时候,带上entrypoint sh文件中所需的2个参数(NODE_TYPE、HEAD_NODE_ADDRESS)。
- 如何在 Kubernetes 集群中部署大模型开源推理框架 VLLM?
vllm 也支持分布式推理,配置下就行。 混合精度推理:大模型吃性能,这时候咱就可以用混合精度推理 (fp16 fp32 混合),在不明显损失精度的前提下,大幅提高推理速度。这种优化,开源框架基本都支持,vllm 也不例外,直接在配置文件里改就行。
- vLLM 最近有哪些更新? - 知乎
vLLM除了LLM基本的kernel优化、并行优化、量化策略,还有很多其他优化。 CUDA Graph Cuda Graph对vLLM的性能提升很大,毕竟vLLM是采用pytorch原生的op配合拓展op搭建的,有很多额外的消耗:user-written logic, PyTorch dispatcher logic, memory allocation overhead, and GPU driver kernel overhead。
- vllm内部怎么根据max_model_len自动计算max_num_batched_tokens?
在VLLM这样的模型中, max_num_batched_tokens 的计算可能会考虑以下因素: 1 模型的最大输入长度限制:这是由模型设计决定的,比如Transformer模型的层数和隐藏层的大小。
- 有人使用vLLM加速过自己的大语言模型吗?效果怎么样? - 知乎
在vLLM中,采取的是all-or-nothing策略,即释放被抢占请求的所有block。 再来看问题2。对于这些被选中要释放的KV block,如果将它们直接丢掉,那未免过于浪费。vLLM采用的做法是将其从gpu上交换(Swap)到cpu上。这样等到gpu显存充份时,再把这些block从cpu上重载回来。
- vllm 为什么没在 prefill 阶段支持 cuda graph? - 知乎
因为cuda graph要求静态shape, prefill做不到,因为prompt的长度不确定!但是decode阶段的长度固定为1,只是batch size不确定。因此,vllm为decode捕获了多个batch size版本的graph,实例运行时可以padding到最近的batch size版本,实现推理。
|
|
|