环境
- 2× A40 GPU
- CUDA 12.4
- NVIDIA 驱动 570.86.10
安装步骤
# 安装 uv 并创建虚拟环境
pip install uv
uv venv vllm-qwq-awq --python 3.12 --seed
# 激活虚拟环境
source vllm-qwq-awq/bin/activate
# 安装依赖
uv pip install huggingface-hub vllm
# 下载模型(可选择使用镜像源)
huggingface-cli download Qwen/QwQ-32B-AWQ --local-dir /root/qwq
HF_ENDPOINT=https://hf-mirror.com huggingface-cli download Qwen/QwQ-32B-AWQ --local-dir /root/qwq
# 启动服务
python -m vllm.entrypoints.openai.api_server \
--model /root/qwq/ \
--served-model-name qwq32b \
--trust-remote-code \
--host 0.0.0.0 \
--port 8888 \
--max_num_seqs 8 \
--max-model-len 131072 \
--enable-reasoning \
--reasoning-parser deepseek_r1 \
--tensor-parallel-size 2