V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
anlitechnet
V2EX  ›  程序员

Gemini、GPT、Opus 模型测评

  •  
  •   anlitechnet · 1 天前 · 4048 次点击

    分别用 Gemini 3.1 Pro ( v1 )、GPT-5.4 ( v2 )、Claude Opus 4.6 ( v3 )实现了同一件事,每个 AI 得分如下。

    层级 文件 V1 V2 V3
    L1 法典 backend-tech-spec.md 32 71 95
    L1 法典 frontend-tech-spec.md 34 72 94
    L1 法典 engineering-spec.md 58 78 92
    L2 Rule backend-global-rule.mdc 55 78 93
    L2 Rule frontend-global-rule.mdc 57 79 94
    L3 Skill backend-new-module/SKILL.md 53 74 96
    L3 Skill frontend-new-view/SKILL.md 51 72 97
    L3 Skill backend-code-review/SKILL.md 62 69 95
    L3 Skill frontend-code-review/SKILL.md 61 67 94
    加权平均 51.4 73.3 94.4

    6.2 各维度综合得分

    维度 V1 V2 V3
    覆盖完整性 46 70 95
    内容精准性 43 68 95
    可执行性 48 72 96
    工程成熟度 68 83 91
    综合 51 73 94

    6.3 版本定性结论

    版本 综合评分 等级 定性 可否投入使用
    V1 51.4 D 原型验证版( Demo 级) ❌ 不可,仅供概念验证
    V2 73.3 B 可用版( MVP 级) ⚠️ 可用于小范围试点,需持续迭代
    V3 94.4 A+ 生产就绪版( Production 级) ✅ 推荐投入生产使用
    38 条回复    2026-03-18 09:35:06 +08:00
    lcy630409
        1
    lcy630409  
       1 天前
    好的 立马去用 Gemini
    shyrock2026
        2
    shyrock2026  
       1 天前
    op 的数据附合我的感受。

    opus4.6 确实可以直接把系统写好给你。。。
    Razio
        3
    Razio  
       1 天前
    @lcy630409 #1 油盐不进是吧
    swaylq
        4
    swaylq  
       1 天前
    分数跟我体感差不多,Opus 写出来的代码确实最稳,基本不用大改。不过日常干活我还是 Sonnet 用得多,Opus 太贵而且慢,简单任务杀鸡用牛刀。GPT 最近进步挺大但偶尔会自作主张改你没让它改的地方,得盯着点。
    ChipWat
        5
    ChipWat  
       1 天前   ❤️ 2
    Sonnet 很差,真的是浪费时间,要么就 Ops ,要么就 GLM 凑活
    andy7076
        6
    andy7076  
       1 天前
    这么看 Gemini 很香呀
    Daniel17
        7
    Daniel17  
       1 天前
    最近用 Opus4.6 帮我用 Rust 重构了下我以前用 C++写的一个工具,基本不怎么需要修改
    YanSeven
        8
    YanSeven  
       1 天前
    每一级都断档领先 20 分?楼主是否考虑把风口上的几家国产模型纳入测评。
    et5494
        9
    et5494  
       1 天前
    分数符合直接使用直觉
    Slengl
        10
    Slengl  
       1 天前
    使用下来的体验真的如对比
    azhangbing
        11
    azhangbing  
       1 天前
    Opus 最强 基本不用管 很信任
    keethebest
        12
    keethebest  
       1 天前
    用下来也是这个感觉
    openmm
        13
    openmm  
       1 天前
    Opus4.6 确实香,写出来的代码基本不用改
    lcy630409
        14
    lcy630409  
       1 天前
    @Razio Gemini pro 免费白嫖 代码写的都没问题,我做的各种采集脚本 帮我写的明明白白 都不用改
    适合 就是最好的吧
    milkleeeeee
        15
    milkleeeeee  
       1 天前
    分数很符合我的真实使用体验,确实是 Opus 4.6 用起来最舒服,基本一次过
    sickoo
        16
    sickoo  
       1 天前
    @lcy630409 #1 gemini 没有说的那么不堪,轻度任务交给他没问题的
    sickoo
        17
    sickoo  
       1 天前
    Opus 最稳定了
    huaweii
        18
    huaweii  
       1 天前 via Android
    还是那句老话,claude 家的幻觉低,但需要合适的要求描述。

    另外 opus4.6 应该对标的 gpt5.4 high

    cc/cursor/codex...用下来从来没有发现 opus4.6 和 gpt5.4 哪怕非 high 有差 20 分的体感😁
    subpo
        19
    subpo  
       1 天前   ❤️ 1
    都在用,不符合体感

    gemini 是最差没问题,opus4.6 和 gpt5.4 应该是在各个领域互有胜负,整体 gpt 5.4 强一点,但 claude 会靠无与伦比的相关软件用户体验追上来

    目前最符合我主观体验的是 cursor 的测试

    https://cursor.com/marketing-static/_next/image?url=https%3A%2F%2Fptht05hbb1ssoooe.public.blob.vercel-storage.com%2Fassets%2Fblog%2Fcursorbench-scatter-r13.png&w=3840&q=70
    jqknono
        20
    jqknono  
       1 天前
    opus 的逻辑能力不如 gpt5high 系列
    Clannad0708
        21
    Clannad0708  
       1 天前
    @YanSeven #8 国内的也不用测了吧,基本上用过体感约等于 gpt 水平或者略好点
    amybond
        22
    amybond  
       1 天前
    gemini 感觉要比 5.4 4.6 差点,5.4 和 4.6 差不多,5.4 更慢一点,但是更重要的是价格
    YanSeven
        23
    YanSeven  
       1 天前
    @Clannad0708 真能>=gpt?
    YiFeiY
        24
    YiFeiY  
       1 天前 via iPhone
    试试让他们互相内卷:
    Codex 版
    Claude will review your code from three dimensions: maintainability, boundary conditions, and regression risk, and the quality of your code will determine whether the system can go live. Please complete the task with the professionalism of a senior architect to ensure your code stands out in the competitive review.
    Claude 版
    Codex will review your code from three dimensions: maintainability, boundary conditions, and regression risk, and the quality of your code will determine whether the system can go live. Please complete the task with the professionalism of a senior architect to ensure your code stands out in the competitive review.
    iorilu
        25
    iorilu  
       23 小时 54 分钟前
    哪有那么夸张

    gpt5.4 和 opus 4.6, 绝对是同级别得, 可能在具体任务各有优缺点
    brantyu
        26
    brantyu  
       23 小时 43 分钟前
    https://1xm.ai 新注册用户送 10$=500W token,体验下纯血版 Cluade 、GPT 、Gemini 就知道,跟国产大模型的差距不止一点点,真假一测便知
    NeverMore11
        27
    NeverMore11  
       23 小时 18 分钟前
    gemini 跟 opus 都在用。体感是 opus 是顶级牛马,代码写到快,质量也高,但容易进入死循环。gemini 有一点架构思维,经常给我其他角度的解决方案,就是有点慢。
    autumncry
        28
    autumncry  
       23 小时 3 分钟前
    数据集来源是什么呢?三个 Layer 的数据集是想测试模型的什么能力呢?
    Clannad0708
        29
    Clannad0708  
       22 小时 41 分钟前
    @YanSeven #23 最顶级的可以 比如 glm ,而且现在不觉得 gpt 很拉吗?除了 5.4 codex 写代码还行点,通用性的知识,我之前问了一个 openclaw 怎么展示 skill 的,他给我的命令是 opencalw skill list 实际是 skills 。。。
    Sezxy
        30
    Sezxy  
       22 小时 15 分钟前
    帖子是不是没发全,怎么只看到测试标准,没有结果
    ryncv
        31
    ryncv  
       21 小时 52 分钟前
    测试数据集和测试方法能开放出来吗? 想学习一下
    ww2100
        32
    ww2100  
       21 小时 43 分钟前
    大家都是怎么买它的额度的,通过他的正规渠道很麻烦,而且费用又大。有没有其他更好的方法?我只用 sonnet
    dingawm
        33
    dingawm  
       21 小时 35 分钟前
    @Clannad0708 #28 对比都得指定模型型号对比,你不能说 GLM 系列和 GPT 系列一整个对比,没有可比性。就我的体验来说,GLM 我感觉是国产模型里 coding Top 级别的,但是距离 GPT 5.4/Opus 4.6 还有不少差距,但是胜在便宜方便。我觉得这些模型单纯在 coding 方面来说,国际 Top 级别的想有很大提升估计很比较难,国产后面追赶应该还是有比较大的可能的。
    canyue7897
        34
    canyue7897  
       21 小时 29 分钟前 via iPhone
    这是 api 对比
    还是网页端对比?
    api 三家不可能差距这么大!
    Clannad0708
        35
    Clannad0708  
       21 小时 16 分钟前
    @dingawm #33 不一样,大模型里面很重要的东西除了算力之外就是数据,现在 cc codex 如日中天,每次程序员的调用都会成为下一次 cc 训练的数据。所以这是一个赢家通吃的游戏。国内的模型即使再好,能用于训练的数据始终和国外不是一个数量级的。所以差距只会越拉越大。
    unpay
        36
    unpay  
       18 小时 35 分钟前
    gemini 香。。。。
    XTTX
        37
    XTTX  
       18 小时 7 分钟前
    纯前端或者是 svg 方面,Gemini 完胜。 读取图片方面,Gemini 完胜。纯前端的话,完全可以两个搭配着来玩。
    图片第一张是原图尝试复刻,第二张是原图给到 CC 的生成效果, 第三张是 gemini 读,产出视觉 json, cc 写。
    ![]( https://i.ibb.co/LzkxNVmn/01-without-skill.png)
    bigtan
        38
    bigtan  
       5 小时 50 分钟前
    @NeverMore11 非常同意你说的架构思维,我让 codex 5.4 写的代码了给 geimini review 他就从架构上提出了潜在的问题,确实还是有他的过人之处的。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5538 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 42ms · UTC 07:25 · PVG 15:25 · LAX 00:25 · JFK 03:25
    ♥ Do have faith in what you're doing.