快速启动 QwQ-32b-awq

环境

2× A40 GPU
CUDA 12.4
NVIDIA 驱动 570.86.10

安装步骤

# 安装 uv 并创建虚拟环境
pip install uv
uv venv vllm-qwq-awq --python 3.12 --seed

# 激活虚拟环境
source vllm-qwq-awq/bin/activate

# 安装依赖
uv pip install huggingface-hub vllm

# 下载模型（可选择使用镜像源）
huggingface-cli download Qwen/QwQ-32B-AWQ --local-dir /root/qwq
HF_ENDPOINT=https://hf-mirror.com huggingface-cli download Qwen/QwQ-32B-AWQ --local-dir /root/qwq

# 启动服务
python -m vllm.entrypoints.openai.api_server \
    --model /root/qwq/ \
    --served-model-name qwq32b \
    --trust-remote-code \
    --host 0.0.0.0 \
    --port 8888 \
    --max_num_seqs 8 \
    --max-model-len 131072 \
    --enable-reasoning \
    --reasoning-parser deepseek_r1 \
    --tensor-parallel-size 2

菜单

分享

快速启动 QwQ-32b-awq

环境

安装步骤

随手记

快速启动 QwQ-32b-awq

PentAGI 使用指南

hping3 和 slowhttptest 命令

软中断

Nginx禁止域名访问

大模型显存计算

vLLM 部署指南 - DeepSeek-R1-Distill-Qwen-7B

导入本地模型到ollama

网络调优