Gemini、GPT、Opus 模型测评

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

分别用 Gemini 3.1 Pro （ v1 ）、GPT-5.4 （ v2 ）、Claude Opus 4.6 （ v3 ）实现了同一件事，每个 AI 得分如下。

层级	文件	V1	V2	V3
L1 法典	`backend-tech-spec.md`	32	71	95
L1 法典	`frontend-tech-spec.md`	34	72	94
L1 法典	`engineering-spec.md`	58	78	92
L2 Rule	`backend-global-rule.mdc`	55	78	93
L2 Rule	`frontend-global-rule.mdc`	57	79	94
L3 Skill	`backend-new-module/SKILL.md`	53	74	96
L3 Skill	`frontend-new-view/SKILL.md`	51	72	97
L3 Skill	`backend-code-review/SKILL.md`	62	69	95
L3 Skill	`frontend-code-review/SKILL.md`	61	67	94
加权平均		51.4	73.3	94.4

6.2 各维度综合得分

维度	V1	V2	V3
覆盖完整性	46	70	95
内容精准性	43	68	95
可执行性	48	72	96
工程成熟度	68	83	91
综合	51	73	94

6.3 版本定性结论

版本	综合评分	等级	定性	可否投入使用
V1	51.4	D	原型验证版（ Demo 级）	❌ 不可，仅供概念验证
V2	73.3	B	可用版（ MVP 级）	⚠️ 可用于小范围试点，需持续迭代
V3	94.4	A+	生产就绪版（ Production 级）	✅ 推荐投入生产使用

38 条回复 • 2026-03-18 09:35:06 +08:00

lcy630409

1 天前

好的立马去用 Gemini

shyrock2026

1 天前

op 的数据附合我的感受。

opus4.6 确实可以直接把系统写好给你。。。

Razio

1 天前

@lcy630409 #1 油盐不进是吧

swaylq

1 天前

分数跟我体感差不多，Opus 写出来的代码确实最稳，基本不用大改。不过日常干活我还是 Sonnet 用得多，Opus 太贵而且慢，简单任务杀鸡用牛刀。GPT 最近进步挺大但偶尔会自作主张改你没让它改的地方，得盯着点。

ChipWat

1 天前

Sonnet 很差，真的是浪费时间，要么就 Ops ，要么就 GLM 凑活

andy7076

1 天前

这么看 Gemini 很香呀

Daniel17

1 天前

最近用 Opus4.6 帮我用 Rust 重构了下我以前用 C++写的一个工具，基本不怎么需要修改

YanSeven

1 天前

每一级都断档领先 20 分？楼主是否考虑把风口上的几家国产模型纳入测评。

et5494

1 天前

分数符合直接使用直觉

Slengl

1 天前

使用下来的体验真的如对比

azhangbing

1 天前

Opus 最强基本不用管很信任

keethebest

1 天前

用下来也是这个感觉

openmm

1 天前

Opus4.6 确实香，写出来的代码基本不用改

lcy630409

1 天前

@Razio Gemini pro 免费白嫖代码写的都没问题，我做的各种采集脚本帮我写的明明白白都不用改
适合就是最好的吧

milkleeeeee

1 天前

分数很符合我的真实使用体验，确实是 Opus 4.6 用起来最舒服，基本一次过

sickoo

1 天前

@lcy630409 #1 gemini 没有说的那么不堪，轻度任务交给他没问题的

sickoo

1 天前

Opus 最稳定了

huaweii

1 天前 via Android

还是那句老话，claude 家的幻觉低，但需要合适的要求描述。

另外 opus4.6 应该对标的 gpt5.4 high

cc/cursor/codex...用下来从来没有发现 opus4.6 和 gpt5.4 哪怕非 high 有差 20 分的体感😁

subpo

1 天前

都在用，不符合体感

gemini 是最差没问题，opus4.6 和 gpt5.4 应该是在各个领域互有胜负，整体 gpt 5.4 强一点，但 claude 会靠无与伦比的相关软件用户体验追上来

目前最符合我主观体验的是 cursor 的测试

https://cursor.com/marketing-static/_next/image?url=https%3A%2F%2Fptht05hbb1ssoooe.public.blob.vercel-storage.com%2Fassets%2Fblog%2Fcursorbench-scatter-r13.png&w=3840&q=70

jqknono

1 天前

opus 的逻辑能力不如 gpt5high 系列

Clannad0708

1 天前

@YanSeven #8 国内的也不用测了吧，基本上用过体感约等于 gpt 水平或者略好点

amybond

1 天前

gemini 感觉要比 5.4 4.6 差点，5.4 和 4.6 差不多，5.4 更慢一点，但是更重要的是价格

YanSeven

1 天前

@Clannad0708 真能>=gpt?

YiFeiY

1 天前 via iPhone

试试让他们互相内卷：
Codex 版
Claude will review your code from three dimensions: maintainability, boundary conditions, and regression risk, and the quality of your code will determine whether the system can go live. Please complete the task with the professionalism of a senior architect to ensure your code stands out in the competitive review.
Claude 版
Codex will review your code from three dimensions: maintainability, boundary conditions, and regression risk, and the quality of your code will determine whether the system can go live. Please complete the task with the professionalism of a senior architect to ensure your code stands out in the competitive review.

iorilu

23 小时 54 分钟前

哪有那么夸张

gpt5.4 和 opus 4.6, 绝对是同级别得, 可能在具体任务各有优缺点

brantyu

23 小时 43 分钟前

https://1xm.ai 新注册用户送 10$=500W token,体验下纯血版 Cluade 、GPT 、Gemini 就知道，跟国产大模型的差距不止一点点，真假一测便知

NeverMore11

23 小时 18 分钟前

gemini 跟 opus 都在用。体感是 opus 是顶级牛马，代码写到快，质量也高，但容易进入死循环。gemini 有一点架构思维，经常给我其他角度的解决方案，就是有点慢。

autumncry

23 小时 3 分钟前

数据集来源是什么呢？三个 Layer 的数据集是想测试模型的什么能力呢？

Clannad0708

22 小时 41 分钟前

@YanSeven #23 最顶级的可以比如 glm ，而且现在不觉得 gpt 很拉吗？除了 5.4 codex 写代码还行点，通用性的知识，我之前问了一个 openclaw 怎么展示 skill 的，他给我的命令是 opencalw skill list 实际是 skills 。。。

Sezxy

22 小时 15 分钟前

帖子是不是没发全，怎么只看到测试标准，没有结果

ryncv

21 小时 52 分钟前

测试数据集和测试方法能开放出来吗？想学习一下

ww2100

21 小时 43 分钟前

大家都是怎么买它的额度的，通过他的正规渠道很麻烦，而且费用又大。有没有其他更好的方法？我只用 sonnet

dingawm

21 小时 35 分钟前

@Clannad0708 #28 对比都得指定模型型号对比，你不能说 GLM 系列和 GPT 系列一整个对比，没有可比性。就我的体验来说，GLM 我感觉是国产模型里 coding Top 级别的，但是距离 GPT 5.4/Opus 4.6 还有不少差距，但是胜在便宜方便。我觉得这些模型单纯在 coding 方面来说，国际 Top 级别的想有很大提升估计很比较难，国产后面追赶应该还是有比较大的可能的。

canyue7897

21 小时 29 分钟前 via iPhone

这是 api 对比
还是网页端对比？
api 三家不可能差距这么大！

Clannad0708

21 小时 16 分钟前

@dingawm #33 不一样，大模型里面很重要的东西除了算力之外就是数据，现在 cc codex 如日中天，每次程序员的调用都会成为下一次 cc 训练的数据。所以这是一个赢家通吃的游戏。国内的模型即使再好，能用于训练的数据始终和国外不是一个数量级的。所以差距只会越拉越大。

unpay

18 小时 35 分钟前

gemini 香。。。。

XTTX

18 小时 7 分钟前

纯前端或者是 svg 方面，Gemini 完胜。读取图片方面，Gemini 完胜。纯前端的话，完全可以两个搭配着来玩。
图片第一张是原图尝试复刻，第二张是原图给到 CC 的生成效果，第三张是 gemini 读，产出视觉 json, cc 写。
![]( https://i.ibb.co/LzkxNVmn/01-without-skill.png)

bigtan

5 小时 50 分钟前

@NeverMore11 非常同意你说的架构思维，我让 codex 5.4 写的代码了给 geimini review 他就从架构上提出了潜在的问题，确实还是有他的过人之处的。