vLLM on 断念梦的站点

vLLM on 断念梦的站点https://desistdaydream.github.io/docs/12.AI/AI-MGMT/vLLM/Recent content in vLLM on 断念梦的站点Hugozh-cnMon, 11 May 2026 17:35:37 +0800vLLMhttps://desistdaydream.github.io/docs/12.AI/AI-MGMT/vLLM/vLLM/Mon, 01 Jan 0001 00:00:00 +0000https://desistdaydream.github.io/docs/12.AI/AI-MGMT/vLLM/vLLM/概述参考： GitHub 项目，vllm-project/vllm 官网用于 LLM 的高吞吐量和内存高效的推理和服务引擎支持的模型: https://docs.vllm.ai/en/stable/models/supported_models/ 部署部署什么？ vllm CLI？ vllm 第三方库供 Python 导入？感觉都可以，也挺简单的。 vllm 可以直接用容器镜像拉起来 Python 库可以用 uv 装主要是后面如何用 vllm 使用模型进行推理。以及国产化，尤其是 Ansible Plugins 比较麻烦容器化部署 TODO 使用 vLLM 使用 vLLM 意味着通过 vLLM 启动一个对外提供的推理服务使用 vllm serve 命令，在 8000 端口上启动一个兼容 OpenAI API 的 WebAPI，提供了 Qwen3-0.6B 模型的推理服务： vllm serve --model Qwen/Qwen3-0.6B [!Tip] 默认情况下，vllm 会从 Hugging Face 下载指定的模型。或者也可以使用 HF 镜像站下载模型后，手动指定本地模型路径之后，我们可以通过 http://localhost:8000/v1 使用 OpenAI 兼容的 API 获取推理结果。vllm CLIhttps://desistdaydream.github.io/docs/12.AI/AI-MGMT/vLLM/vllm-CLI/Mon, 01 Jan 0001 00:00:00 +0000https://desistdaydream.github.io/docs/12.AI/AI-MGMT/vLLM/vllm-CLI/概述参考：官方文档，参考 - CLI vllm 命令行工具用于运行和管理 Model(模型) COMMAND serve # 启动 vLLM OpenAI 兼容 API 服务器。默认监听在 0.0.0.0:8000 chat # 通过运行中的 WebAPI 开始聊天。默认连接到 0.0.0.0:8000。可以通过 –url 参数指定要连接的地址 complete # 通过运行中的 WebAPI 进行文本补全。与对话调用 /v1/chat/completions 不同，这个调用 /v1/completions。 bench # 基准测试 collect-env # 收集并展示当前系统环境信息 serve https://docs.vllm.ai/en/stable/cli/serve/ 下面三个命令效果一样，加载 Qwen3-0.6B 模型并在 8000 端口上启动 OpenAI API 兼容的 Web 服务： vllm serve vllm serve Qwen/Qwen3-0.6B vllm serve --model Qwen/Qwen3-0.6B OPTIONS serve 命令的参数非常多，可以分为多个大类 Frontend # OpenAI 兼容的 WebAPI 服务器的参数 ModelConfig # 模型的配置 LoadConfig # 加载模型权重的配置 ParallelConfig # 分布式执行的配置。i.Ascend Pluginhttps://desistdaydream.github.io/docs/12.AI/AI-MGMT/vLLM/Plugin-Ascend/Mon, 01 Jan 0001 00:00:00 +0000https://desistdaydream.github.io/docs/12.AI/AI-MGMT/vLLM/Plugin-Ascend/概述参考： GitHub 项目，vllm-project/vllm-ascend 官方文档 vllm-project/vllm-ascend 项目是 vLLM 的昇腾插件，让 vllm 可以在 NPU 设备上使用支持的模型: https://docs.vllm.ai/projects/ascend/en/latest/user_guide/support_matrix/supported_models.html 部署容器化部署可用的镜像位置 https://quay.io/repository/ascend/vllm-ascend https://quay.io/repository/ascend/cann 如果在国内，可以使用 daocloud 或其他镜像站点来加速下载： TAG=v0.18.0 docker pull m.daocloud.io/quay.io/ascend/vllm-ascend:$TAG # 或者 docker pull quay.nju.edu.cn/ascend/vllm-ascend:$TAG export IMAGE=quay.io/ascend/vllm-ascend:v0.18.0 # 使用容器运行 docker run --rm \ --name vllm-ascend \ --shm-size=10g \ --device /dev/davinci0 \ --device /dev/davinci1 \ --device /dev/davinci2 \ --device /dev/davinci3 \ --device /dev/davinci4 \ --device /dev/davinci5 \ --device /dev/davinci6 \ --device /dev/davinci7 \ --device /dev/davinci_manager \ --device /dev/devmm_svm \ --device /dev/hisi_hdc \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \ -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \ -v /usr/local/Ascend/driver/version.