• 请不要在回答技术问题时复制粘贴 AI 生成的内容
heyitsme
V2EX  ›  程序员

Qwen3.7 编码排名超过了智谱 GLM5.1,有人用过吗?实际体验怎么样

  •  
  •   heyitsme · May 27 · 6421 views

    32 replies    2026-05-30 15:11:14 +08:00
    zzahsjlk
        1
    zzahsjlk  
       May 27   ❤️ 10
    排名没输过,实战没赢过
    drealism
        2
    drealism  
       May 27
    看了很多测评都说还可以,但是太贵了
    duanxianze
        3
    duanxianze  
       May 27   ❤️ 1
    我个人是感觉不出这些模型有多大的差别,可能我写的代码太简单了吧
    skuuhui
        4
    skuuhui  
       May 27
    试了一下,kimi2.5 水平。有不及无之过。甚至不如 3.5plus ,感觉他们只是内部重新打了一个 tag 就端上来了。
    riscv
        5
    riscv  
       May 27 via Android
    @duanxianze 我也是,我感觉随便用一个都能写出比我好的代码,不知道他们比来比去做什么😂
    heyitsme
        6
    heyitsme  
    OP
       May 27
    @riscv 应该是主要是项目工程能力,再搭配大模型,差距一下子就上来了
    wsbqdyhm
        7
    wsbqdyhm  
       May 27 via iPhone
    @zzahsjlk #1 qwen3.6 开源的系列妥妥的第一,没有之一
    dabbit
        8
    dabbit  
       May 27
    我在 Qoder 使用 Qwen3.7 ,让它修一个语法问题,它却自顾自的创建了新的文件,自顾自的开始修复其他问题,我不好说是模型问题还是 Agent 问题还是两者都有问题。看了一下它的深度思考过程,它会自顾自的说“The user wants me to also handle the same context issue in ChannelInventoryManager.ets.”或者“The user wants me to also handle the `flutter_inappwebview` plugin. Let me read the relevant files to understand what's needed.”,也不知道是哪个 User 给他下指令了。(我特意清空了 Qoder 的记忆来做测试的)
    dabbit
        9
    dabbit  
       May 27
    maocat
        10
    maocat  
       May 27   ❤️ 2
    公司一个月已经买了第三个 1398 块钱的 token plan
    第一个坚持了 10 多天(主用 qwen3.6 plus ),优点速度快,缺点效果差劲
    第二个坚持了 4 天(主用 glm5.1 ),优点速度快,效果合适(感觉上和智普家的还是有差距),缺点 token 使用非常快
    第三个正在使用,第三天,主用( qwen3.7 max ),效果能打,速度快,但是有个问题非常傻逼,明确让他改用一个功能,他在改动的时候非常有想法
    比如:

    Q:顶部的标签数据来源帮我修改为字段 xxA
    A:好的,改完了已将原来的 xxB 改为 xxA ,同时我把 xxB 的数据拼接到了 xxC 前面
    sunsai
        11
    sunsai  
       May 27   ❤️ 1
    每次写出都无法通过编译的代码, 都是国产大模型搞出来的
    YanSeven
        12
    YanSeven  
       May 27
    卖给企业吧,普通个人用户还是 deepseek 。
    xiaomushen
        13
    xiaomushen  
       May 27
    3.7 max 速度很快
    heyitsme
        14
    heyitsme  
    OP
       May 27
    @dabbit #8 难绷
    nicaiwss
        15
    nicaiwss  
       May 27
    @dabbit 模型自己加的,只修一个然后无视代码里类似的其他问题的话大家觉得模型太笨,其他模型也会这样,但不一定直接开始修,有些会先问一下
    dabbit
        16
    dabbit  
       May 27
    @nicaiwss 不仅如此,它说“The user wants me to also handle the same context issue in ChannelInventoryManager.ets”,但是现在根本就不存在 ChannelInventoryManager.ets 这个文件,然后它就自己创建了。
    0x663
        17
    0x663  
       May 27   ❤️ 2
    Qwen 为跑分而生!
    MK47
        18
    MK47  
       May 27   ❤️ 1
    结论:依托答辩
    我使用阿里百炼 TOKEN PLAN 在 Qoder 中运行,就效果而言就是答辩,无可置疑的 答辩
    myarsenal
        19
    myarsenal  
       May 27
    @zzahsjlk 有排名很低体验很好的推荐一个
    dcatfly
        20
    dcatfly  
       May 27
    @wsbqdyhm qwen3.6 是 35b 激活 3b ,对比 glm5.1 是 744b 激活 40b ,kimi2.6 是 1t 激活 32b
    不过 qwen3.6 可能是个人笔记本勉强能跑起来的最智能的模型了
    DinnyXu
        21
    DinnyXu  
       May 27
    可以关注抖音的一个博主,ID:Token 就是词元,这个博主我最近刷到的,会用各个模型进行多维度测试,挺有意思的
    Poko
        22
    Poko  
       May 27
    @MK47 不科学啊,qoder 不是阿里自家的么,本身主要使用的就是 qwen 模型
    ndxxx
        23
    ndxxx  
       May 27 via Android
    逆天,原汤化原食居然化不开🤣

    @dabbit
    MK47
        24
    MK47  
       May 27
    @Poko 用指定模型 谁用他自家的
    keshawnvan
        25
    keshawnvan  
       May 27
    和 GLM5.1 差不多,明显强于 DeepSeek 。
    比 Opus4.6 是肯定不如的。
    easing
        26
    easing  
       May 27
    3.7 max 还可以,比之前的 3.6 好很多了
    me262
        27
    me262  
       May 27
    我用 qoderwork 和 9 楼一样的情况
    catazshadow
        28
    catazshadow  
       May 27 via Android
    国产做题家只能搞出做题 AI ,问题一变就呆若智障了
    webszy
        29
    webszy  
       May 28
    参考遥遥领先的宣传语:地球上性能最强悍的 SUV
    saySilence
        30
    saySilence  
       May 28
    到 Trae 里面看看哪个模型排队时间长就知道谁厉害了
    zhu327808
        31
    zhu327808  
       May 28   ❤️ 1
    在 system prompt 里面加上这一句:

    Reasoning effort is set to xhigh. Please think carefully through the task, validate key assumptions, consider plausible alternatives, and prioritize correctness, consistency, and clarity in the final answer.

    然后 coding 的体感非常不错, 整体比 GLM 5.1 快, 实际效果应该算是国产第一了

    以上 prompt 来源于 https://qwen.ai/blog?id=qwen3.7
    Rorysky
        32
    Rorysky  
       May 30
    @zhu327808 大模型测评很难客观,你看上面很多人说的效果甚至不如 kimi k2.5
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1160 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 75ms · UTC 23:48 · PVG 07:48 · LAX 16:48 · JFK 19:48
    ♥ Do have faith in what you're doing.