<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>vLLM on 断念梦的站点</title><link>https://desistdaydream.github.io/docs/12.AI/AI-MGMT/vLLM/</link><description>Recent content in vLLM on 断念梦的站点</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Mon, 11 May 2026 17:35:37 +0800</lastBuildDate><atom:link href="https://desistdaydream.github.io/docs/12.AI/AI-MGMT/vLLM/index.xml" rel="self" type="application/rss+xml"/><item><title>vLLM</title><link>https://desistdaydream.github.io/docs/12.AI/AI-MGMT/vLLM/vLLM/</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://desistdaydream.github.io/docs/12.AI/AI-MGMT/vLLM/vLLM/</guid><description>概述 参考：
GitHub 项目，vllm-project/vllm 官网 用于 LLM 的高吞吐量和内存高效的推理和服务引擎
支持的模型: https://docs.vllm.ai/en/stable/models/supported_models/
部署 部署什么？
vllm CLI？ vllm 第三方库供 Python 导入？ 感觉都可以，也挺简单的。
vllm 可以直接用容器镜像拉起来
Python 库可以用 uv 装
主要是后面如何用 vllm 使用模型进行推理。以及国产化，尤其是 Ansible Plugins 比较麻烦
容器化部署 TODO
使用 vLLM 使用 vLLM 意味着通过 vLLM 启动一个对外提供的推理服务
使用 vllm serve 命令，在 8000 端口上启动一个兼容 OpenAI API 的 WebAPI，提供了 Qwen3-0.6B 模型的推理服务：
vllm serve --model Qwen/Qwen3-0.6B [!Tip] 默认情况下，vllm 会从 Hugging Face 下载指定的模型。或者也可以使用 HF 镜像站下载模型后，手动指定本地模型路径
之后，我们可以通过 http://localhost:8000/v1 使用 OpenAI 兼容的 API 获取推理结果。</description></item><item><title>vllm CLI</title><link>https://desistdaydream.github.io/docs/12.AI/AI-MGMT/vLLM/vllm-CLI/</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://desistdaydream.github.io/docs/12.AI/AI-MGMT/vLLM/vllm-CLI/</guid><description>概述 参考：
官方文档，参考 - CLI vllm 命令行工具用于运行和管理 Model(模型)
COMMAND
serve # 启动 vLLM OpenAI 兼容 API 服务器。默认监听在 0.0.0.0:8000 chat # 通过运行中的 WebAPI 开始聊天。默认连接到 0.0.0.0:8000。可以通过 &amp;ndash;url 参数指定要连接的地址 complete # 通过运行中的 WebAPI 进行文本补全。与对话调用 /v1/chat/completions 不同，这个调用 /v1/completions。 bench # 基准测试 collect-env # 收集并展示当前系统环境信息 serve https://docs.vllm.ai/en/stable/cli/serve/
下面三个命令效果一样，加载 Qwen3-0.6B 模型并在 8000 端口上启动 OpenAI API 兼容的 Web 服务：
vllm serve vllm serve Qwen/Qwen3-0.6B vllm serve --model Qwen/Qwen3-0.6B OPTIONS serve 命令的参数非常多，可以分为多个大类
Frontend # OpenAI 兼容的 WebAPI 服务器的参数 ModelConfig # 模型的配置 LoadConfig # 加载模型权重的配置 ParallelConfig # 分布式执行的配置。i.</description></item><item><title>Ascend Plugin</title><link>https://desistdaydream.github.io/docs/12.AI/AI-MGMT/vLLM/Plugin-Ascend/</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://desistdaydream.github.io/docs/12.AI/AI-MGMT/vLLM/Plugin-Ascend/</guid><description>概述 参考：
GitHub 项目，vllm-project/vllm-ascend 官方文档 vllm-project/vllm-ascend 项目是 vLLM 的昇腾插件，让 vllm 可以在 NPU 设备上使用
支持的模型: https://docs.vllm.ai/projects/ascend/en/latest/user_guide/support_matrix/supported_models.html
部署 容器化部署 可用的镜像位置
https://quay.io/repository/ascend/vllm-ascend https://quay.io/repository/ascend/cann 如果在国内，可以使用 daocloud 或其他镜像站点来加速下载：
TAG=v0.18.0 docker pull m.daocloud.io/quay.io/ascend/vllm-ascend:$TAG # 或者 docker pull quay.nju.edu.cn/ascend/vllm-ascend:$TAG export IMAGE=quay.io/ascend/vllm-ascend:v0.18.0 # 使用容器运行 docker run --rm \ --name vllm-ascend \ --shm-size=10g \ --device /dev/davinci0 \ --device /dev/davinci1 \ --device /dev/davinci2 \ --device /dev/davinci3 \ --device /dev/davinci4 \ --device /dev/davinci5 \ --device /dev/davinci6 \ --device /dev/davinci7 \ --device /dev/davinci_manager \ --device /dev/devmm_svm \ --device /dev/hisi_hdc \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \ -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \ -v /usr/local/Ascend/driver/version.</description></item></channel></rss>