sdenvi
V2EX  ›  问与答

双卡部署 Swift /Qwen3-32B-AWQ 模型,回答速度慢,乱回答

  •  
  •   sdenvi · Jun 20, 2025 · 1192 views
    This topic created in 358 days ago, the information mentioned may be changed or developed.

    想要支撑更多的并发量,有两张 A40 的显卡使用双卡进行模型部署,服务器不支持 nvlink ,当并发达到 15 个以上之后首个 token 响应时间达到了 10s 以上,并且模型运行一段时间后会出现乱回答问题的情况。

    使用单卡部署不会出现乱回答情况,并发 5 个以下,首个 token 时间平均 5s 左右,使用 vllm 的方式进行部署,启动的参数如下:

    docker run --runtime=nvidia --gpus '"device=4,5"' \
      -v /backup/Qw30:/app/model \
      -p 6666:8000 \
      --shm-size=128g \
      --name qw3-300B \
      --restart unless-stopped \
      -e NCCL_IB_DISABLE=1 \
      -d qwen3-2.0 \
      python3 -m vllm.entrypoints.openai.api_server \
        --model /app/model \
        --tensor-parallel-size 2 \
        --host 0.0.0.0 \
        --port 8000 \
        --max-model-len 8096 \
        --gpu-memory-utilization 0.9 \
        --cpu-offload-gb 0 \
        --max-num-batched-tokens 25600 \
        --max-num-seqs 256 \
        --served-model-name "Qwen3-30B-A3B-3.0"
    

    由于没有什么部署经验,能力有限,所有的方法都来自 AI ,接受付费咨询

    No Comments Yet
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   969 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 38ms · UTC 19:17 · PVG 03:17 · LAX 12:17 · JFK 15:17
    ♥ Do have faith in what you're doing.