菜单

Administrator
发布于 2025-04-08 / 4 阅读
0

快速启动 QwQ-32b-awq

环境

  • 2× A40 GPU
  • CUDA 12.4
  • NVIDIA 驱动 570.86.10

安装步骤

# 安装 uv 并创建虚拟环境
pip install uv
uv venv vllm-qwq-awq --python 3.12 --seed

# 激活虚拟环境
source vllm-qwq-awq/bin/activate

# 安装依赖
uv pip install huggingface-hub vllm

# 下载模型(可选择使用镜像源)
huggingface-cli download Qwen/QwQ-32B-AWQ --local-dir /root/qwq
HF_ENDPOINT=https://hf-mirror.com huggingface-cli download Qwen/QwQ-32B-AWQ --local-dir /root/qwq

# 启动服务
python -m vllm.entrypoints.openai.api_server \
    --model /root/qwq/ \
    --served-model-name qwq32b \
    --trust-remote-code \
    --host 0.0.0.0 \
    --port 8888 \
    --max_num_seqs 8 \
    --max-model-len 131072 \
    --enable-reasoning \
    --reasoning-parser deepseek_r1 \
    --tensor-parallel-size 2