GPT-5.5 真能让人用得舒心吗？怎么在我这跟弱智一样

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

纯吐槽贴。太长不看：听不懂人话。

本贴接续 https://www.v2ex.com/t/1218023 ，因为上个帖子里有人说「不用 Codex ，模型性能当然差！你的抱怨都是无效的」，所以我最近换用了 Codex ，继续吐槽几个例子。

以下例子均使用：官网 GPT Pro 账号（让美国朋友帮忙注册的）+ 最新版 Codex + 开 xhigh （有思考过程）。已用几个账号质量检测站检测过「是否是满血模型」，均为 100% 通过。

要求它「合并代码，先运行编译测试再 commit 」。我刚说完这句，还在 Skill 里特意强调了一遍。结果它改完代码什么都不跑、什么都不查，转头直接 commit 了。指令遵循能力令人汗颜。
要求它「把一个代码文件复制到另一个位置」。结果它不去调 cp 命令，硬是用 Write 工具，花了几分钟把一个几千行的文件用 LLM 逐字「复制」了一遍…… 不是，我的 token 是大风刮来的吗？
要求它「复现并研究一个用户 bug 报告」，报告大意是「启动应用时会正确跟随系统的颜色主题；但启动之后再改系统主题，必须重启应用才生效」。结果它写了个只测「应用启动时能否读取主题」的调试用例，跑完发现「启动时确实能读取主题」，就告诉我无法复现、然后放弃了。说人话就是，报告明明说「 A 场景正常、B 场景有 Bug 」，它却只测了 A 场景，发现正常（这不废话吗），就认定报告无效…… 这是智力正常的 LLM 能干出来的事？
这个在上个帖子里也提过。让它看一份 review 、和我讨论怎么解决，它直接自作主张，一口气「读完了 review 、研究了代码、挑了个自己喜欢的方案、还写好了 review 回复」。要不是我及时掐断，它都要调用 GitHub CLI 、以我的身份去回复别人了。另一次，要求它「读一份 bug 描述、定位代码问题」，结果它非要跟我讨论「这个 bug 报告的英文措辞不准，该怎么改」，就很……无语。
在另一个项目里三番五次强调「要用 uv run 和 pyproject.toml 管理依赖」。它就是不听，非要用 pip 、用系统 python 、用 conda 。再三要求改正，它输出道歉，却连自己刚写的「 uv pip 」都不去改成「 uv add 」。我不说，它就永远不改、也不会主动提醒我。上一个例子非要干没有要求它干的事，这个例子明明是它分内的事，它却什么都不问、不说、不做了。

心累啊。

至于「你怎么不装 Superpowers / 不用 XXX Harness / 不用 XXX 策略」，就这第一个例子，完全干净的上下文都能给我执行一半、丢一半，再多的 Prompt 感觉也没法补救这种例子了。

指令

逻辑

缺陷

129 replies • 2026-06-16 23:27:50 +08:00

1 2

❮

❯

101

Busy

12h 44m ago

确实降智了
前面遇到 gemini 降智，最近遇到 gpt 降智。
这两天我用国内的模型，也算够用。

102

nianyu

12h 13m ago

不好用+1
当然你发帖问就是你不会写 prompt 不会 skill 是不是没用最新模型
鸡同鸭辩

103

jackerbauer

12h 11m ago

越来越弱智了

104

Mandelo

12h 10m ago

@w568w #9 MiMo 实用下来就是个弱智，自己写的接口自己前台接收半天看不出问题，上下文能力基本为 0 ，动不动就全局扫描哪怕给他引用了文件。思考了十几分钟直接取消，gpt 一眼就看出是后台自动序列化导致结果参数名字变化了的锅。

105

someonelikeyouah

11h 59m ago

codex 复杂问题喜欢用针对性枚举来解决，我也是服了哈哈哈哈

106

HomeZane

11h 41m ago

感觉是不正常，按理说即使降智了第一个也不至于呀，很奇怪

107

chengYT

11h 37m ago

GPT5.5 我这里遇到的问题就是 skill 里明确规定了要实施最小改动，但是它每次都在那里执行全局格式化然后发现违反了 skill 要求再一个个撤销格式化

108

shunia

11h 27m ago

再注册个 CC ，两个一起用就完事了。
哪个傻就换另一个。

109

jadeborner

11h 20m ago

检查下你的 ip 质量

110

YangWaleed

11h 7m ago

@nianyu 确实只能是鸡同鸭讲了
因为我感觉这不是普遍情况，至少我确实没遇到。
所以要不是使用方式有问题，要不就是被精准降智或者被批量降智覆盖了。

因为我的逻辑是：如果是普遍情况，每个人用起来都这么弱智，那应该更多人反馈、更多人骂，然后大批量的人从 openai 迁移到 anthropic 、Gemini 、Deepseek 、GLM 等

所以你说得对，确实有点鸡同鸭讲，没法感同身受了。。。

111

iyaozhen

10h 21m ago

不应该吧，我 high 都没怎么用过，不要说 xhigh 了。我觉得还是很好用。生产代码库，还不是自己的小玩具

112

itskingname

10h 4m ago

看一下你是不是加了什么环境变量，覆盖了默认的模型？ Codex 在发现有环境变量指定 base url 和模型的时候，优先级是高于订阅自带模型的。

113

antidoom

9h 47m ago via Android

对指令的理解，gemini 比 chatgpt 好一点。chatgpt 经常反复说同一句话，但不执行，有时候叫它执行，需要叫三次。

遇到同样报错的内容，不加说明发给 gemini 和 gpt ，gemini 每次都知道这是报错内容，立马给我修正。gpt 我必须提醒它这是错误，哪一步出错的，第几行，否则它大概率不知道我什么意思。这是我很困扰的地方。

114

antidoom

9h 45m ago via Android

你说的按计划执行 abc ，gpt 的确经常只专注于 c ，gemini 不会这么蠢。

115

lianyue

9h 36m ago

别自己写 skills
你给需求叫他写或者给他 skills 叫他自己安装要全局还是局部还是安装在哪告诉他
要什么时候用也告诉他
他会给你整理好的

116

CaptainD

9h 24m ago

不太正常，我是重度 5.5 用户，公司给了无限 codex 额度，让他做什么绝不会擅作主张

117

lear7

9h 24m ago

OP 发帖很及时，5.5 我用了两个月，昨天感觉也是感觉这玩意儿突然听不懂人话，听不懂指令了，让它干活好累，查了下 AiStupidLevel 果然降智了，切换到 5.4 感觉还行。

不过我现在主力已经切换到 Compose 2.5 了，这玩意儿不见得很好，但就是中上水平，很稳定，不会给你使坏。

118

nianyu

8h 47m ago

@YangWaleed 不同领域不同项目使用体验都是不同的
你的逻辑是如果是普遍现象那么骂的人更多，你怎么觉得 v2 代表大众，或者你的同事圈子就代表大众了
我知道就有一个 92 年开始干编程的，网易第一批做游戏引擎的天天发微博阴阳 ai ，你让他写一个类操作系统底层软件准确性还没有人家自己手写的高
人家可是什么模型都无限量试过了，这是大牛坐镇没人敢去喷了，现在普通用户你说 ai 不行反正就是你使用方法有问题
你对就完了

119

YangWaleed

8h 18m ago

@nianyu 我是普通用户，我看 OP 描述的问题理解也是普通用户遇到的问题。
我的描述和逻辑确实是 “身边统计学”，从 V2EX 、X 、身边朋友的使用来看，反馈这类问题的情况不多，所以：
1. 要不是我看到的都是幸运用户，没被这么明显的降智。我没看到的、更多的人都被明显降智了
2. 要不是从我看到的 “正常情况和明显降智情况” 的比例，不严谨的反推不是普遍情况

另外，我不知道 openai 内部具体的降智情况和比例，如果 OP 这种情况是普遍情况的话，我确实想不到 openai 怎么还能有这么多的用户量的。

最后，我评论你并不是抬杠或阴阳，而是确实认可你的结论，觉得这在某种程度上是 “鸡同鸭讲”。
就像用户 A 一直被明显降智，用户 B 没怎么被降智，用户 B 基本上很难感同身受用户 A

120

nianyu

7h 41m ago

@YangWaleed 我想表达的是降智和 Ai 面对一些场景能力不足都有
claude4.7 刚出来的时候，我甚至感觉不如之前用的 4.5
然而即使没降智我知道几个比较资深的开发做特定领域软件的时候，即使是小玩具很多关键逻辑也是错的最后还是人工干预

以及与在网上不一样现实还有很多内网或者基于安全问题不让使用 AI 工具的 Offer ，而且不在少数

121

YangWaleed

7h 29m ago

@nianyu 是的，越不开源的地方 AI 能力越不足，特地定领域没训练数据、能力差也是有可能的

AI 的使用体验还和使用场景、上下文情况、使用方式、甚至对话方式都有关系

这也就是我为什么一开始回复你，因为我也认可你说的 “鸡同鸭讲”
只有情况类似交流起来才有意义，OP 这种问题情况让 AI 自己排查可能都更容易查出结果

122

EJW

7h 4m ago

不应该啊，我是 business 套餐，用了两三个月，很偶尔才有这种降智问题

。

123

EJW

7h 3m ago

@EJW 我甚至都没搞 skill

124

woaipaojiao

7h 3m ago

账号质量检测站有无推荐，怎么检测我也想测测

125

rangoBen

6h 57m ago

@w568w 我确实是草率了，我想删，没地方删。抱歉

126

livin2

6h 53m ago

前几天刚吐槽完😂 https://v2ex.com/t/1220126

127

WangShawn

6h 20m ago

很简单的事情，没必要吐槽，因为 GPT 没有逼着你求着你去用它，一个愿打一个愿挨的事情，你觉得哪个用的顺手就用哪个呗

128

wwwwjack

6h 17m ago

只能说使用的问题, 我感觉 5.5 很强大, 基本上说的意思他都能理解的很到位

129

metadata

7 mins ago

刚遇到了，很离谱，之前 codex 的体验都是非常好，无论多少描述他都能完整执行，写一个很长的开发文档，他能一点点的完成和测试所有功能。但刚刚一句话两个指令他丢了一个，一个小问题几次都修复不好，还给我改坏了一些，以前是不会这样的。还有让他加个 ssh mcp ，给他说了账号密码，他直接把密码输出到回答中了，这是之前从来没有出现过的，只要我给他说密码，token ，密钥之类的内容，他就会有明确的回答说不会把这些敏感信息输出。还有就是他明显变快了，我用的 gpt5.5 超高，开了 1.5 倍速，但是平时的体感还是非常慢，刚刚突然快不少。真的是奇了怪，不知道什么原因。

1 2

❮

❯