双卡部署 Swift /Qwen3-32B-AWQ 模型，回答速度慢，乱回答

This topic created in 358 days ago, the information mentioned may be changed or developed.

想要支撑更多的并发量，有两张 A40 的显卡使用双卡进行模型部署，服务器不支持 nvlink ，当并发达到 15 个以上之后首个 token 响应时间达到了 10s 以上，并且模型运行一段时间后会出现乱回答问题的情况。

使用单卡部署不会出现乱回答情况，并发 5 个以下，首个 token 时间平均 5s 左右，使用 vllm 的方式进行部署，启动的参数如下：

docker run --runtime=nvidia --gpus '"device=4,5"' \
  -v /backup/Qw30:/app/model \
  -p 6666:8000 \
  --shm-size=128g \
  --name qw3-300B \
  --restart unless-stopped \
  -e NCCL_IB_DISABLE=1 \
  -d qwen3-2.0 \
  python3 -m vllm.entrypoints.openai.api_server \
    --model /app/model \
    --tensor-parallel-size 2 \
    --host 0.0.0.0 \
    --port 8000 \
    --max-model-len 8096 \
    --gpu-memory-utilization 0.9 \
    --cpu-offload-gb 0 \
    --max-num-batched-tokens 25600 \
    --max-num-seqs 256 \
    --served-model-name "Qwen3-30B-A3B-3.0"

由于没有什么部署经验，能力有限，所有的方法都来自 AI ，接受付费咨询

No Comments Yet

双卡部署并发量乱回答