Qwen3.7 编码排名超过了智谱 GLM5.1，有人用过吗？实际体验怎么样

32 replies • 2026-05-30 15:11:14 +08:00

1

zzahsjlk

May 27

10

排名没输过，实战没赢过

2

drealism

May 27

看了很多测评都说还可以，但是太贵了

3

duanxianze

May 27

1

我个人是感觉不出这些模型有多大的差别，可能我写的代码太简单了吧

4

skuuhui

May 27

试了一下，kimi2.5 水平。有不及无之过。甚至不如 3.5plus ，感觉他们只是内部重新打了一个 tag 就端上来了。

5

riscv

May 27 via Android

@duanxianze 我也是，我感觉随便用一个都能写出比我好的代码，不知道他们比来比去做什么😂

6

heyitsme

OP

May 27

@riscv 应该是主要是项目工程能力，再搭配大模型，差距一下子就上来了

7

wsbqdyhm

May 27 via iPhone

@zzahsjlk #1 qwen3.6 开源的系列妥妥的第一，没有之一

8

dabbit

May 27

我在 Qoder 使用 Qwen3.7 ，让它修一个语法问题，它却自顾自的创建了新的文件，自顾自的开始修复其他问题，我不好说是模型问题还是 Agent 问题还是两者都有问题。看了一下它的深度思考过程，它会自顾自的说“The user wants me to also handle the same context issue in ChannelInventoryManager.ets.”或者“The user wants me to also handle the `flutter_inappwebview` plugin. Let me read the relevant files to understand what's needed.”，也不知道是哪个 User 给他下指令了。（我特意清空了 Qoder 的记忆来做测试的）

9

dabbit

May 27

10

maocat

May 27

2

公司一个月已经买了第三个 1398 块钱的 token plan
第一个坚持了 10 多天（主用 qwen3.6 plus ），优点速度快，缺点效果差劲
第二个坚持了 4 天（主用 glm5.1 ），优点速度快，效果合适（感觉上和智普家的还是有差距），缺点 token 使用非常快
第三个正在使用，第三天，主用（ qwen3.7 max ），效果能打，速度快，但是有个问题非常傻逼，明确让他改用一个功能，他在改动的时候非常有想法
比如：

Q：顶部的标签数据来源帮我修改为字段 xxA
A：好的，改完了已将原来的 xxB 改为 xxA ，同时我把 xxB 的数据拼接到了 xxC 前面

11

sunsai

May 27

1

每次写出都无法通过编译的代码, 都是国产大模型搞出来的

12

YanSeven

May 27

卖给企业吧，普通个人用户还是 deepseek 。

13

xiaomushen

May 27

3.7 max 速度很快

14

heyitsme

OP

May 27

@dabbit #8 难绷

15

nicaiwss

May 27

@dabbit 模型自己加的，只修一个然后无视代码里类似的其他问题的话大家觉得模型太笨，其他模型也会这样，但不一定直接开始修，有些会先问一下

16

dabbit

May 27

@nicaiwss 不仅如此，它说“The user wants me to also handle the same context issue in ChannelInventoryManager.ets”，但是现在根本就不存在 ChannelInventoryManager.ets 这个文件，然后它就自己创建了。

17

0x663

May 27

2

Qwen 为跑分而生！

18

MK47

May 27

1

结论：依托答辩
我使用阿里百炼 TOKEN PLAN 在 Qoder 中运行，就效果而言就是答辩，无可置疑的答辩

19

myarsenal

May 27

@zzahsjlk 有排名很低体验很好的推荐一个

20

dcatfly

May 27

@wsbqdyhm qwen3.6 是 35b 激活 3b ，对比 glm5.1 是 744b 激活 40b ，kimi2.6 是 1t 激活 32b
不过 qwen3.6 可能是个人笔记本勉强能跑起来的最智能的模型了

21

DinnyXu

May 27

可以关注抖音的一个博主，ID：Token 就是词元，这个博主我最近刷到的，会用各个模型进行多维度测试，挺有意思的

22

Poko

May 27

@MK47 不科学啊，qoder 不是阿里自家的么，本身主要使用的就是 qwen 模型

23

ndxxx

May 27 via Android

逆天，原汤化原食居然化不开🤣

@dabbit

24

MK47

May 27

@Poko 用指定模型谁用他自家的

25

keshawnvan

May 27

和 GLM5.1 差不多，明显强于 DeepSeek 。
比 Opus4.6 是肯定不如的。

26

easing

May 27

3.7 max 还可以，比之前的 3.6 好很多了

27

me262

May 27

我用 qoderwork 和 9 楼一样的情况

28

catazshadow

May 27 via Android

国产做题家只能搞出做题 AI ，问题一变就呆若智障了

29

webszy

May 28

参考遥遥领先的宣传语：地球上性能最强悍的 SUV

30

saySilence

May 28

到 Trae 里面看看哪个模型排队时间长就知道谁厉害了

31

zhu327808

May 28

1

在 system prompt 里面加上这一句:

Reasoning effort is set to xhigh. Please think carefully through the task, validate key assumptions, consider plausible alternatives, and prioritize correctness, consistency, and clarity in the final answer.

然后 coding 的体感非常不错, 整体比 GLM 5.1 快, 实际效果应该算是国产第一了

以上 prompt 来源于 https://qwen.ai/blog?id=qwen3.7

32

Rorysky

May 30

@zhu327808 大模型测评很难客观，你看上面很多人说的效果甚至不如 kimi k2.5