最近用 gpt 发现他做高考英语错误频出,我让他帮我批改卷子,好几个问题都出错了。然后我告诉他错了,让他再做一遍,他就说好的,确实是他错了,这次改出来错的就蛮少了。我又说你不能单纯顺从我说的,我俩是在讨论,然后输出的一版又是把一些错误的答案说成对的。按理说 gpt 不应该连高考英语都能错很多吧,用的是 gpt5.5 高级
1
Dewchame OP |
2
yakun4566 1 day ago |
3
huanxianghao 1 day ago
目前 AI 最大的问题就是智商受算力影响,供应商算力不够的时候你的 AI 就降智,具体表现就是时而聪明时而蠢笨
|
4
4seasons 1 day ago 应试教育下所谓的英语,让一个老外来做,都不可能拿满分
|
5
nszm 1 day ago 太快了 楼上都有人开始反思了
|
6
nomansky 1 day ago
你这图打不开。错误的发出来贴出来看看
|
7
ndxxx 1 day ago via Android 哑巴英语的英语教育质量不反思教育体系,难道 pua 自己吗😁
|
8
cnrting 1 day ago via iPhone
近期的 AI 都不太行,排行榜跟安卓跑分榜似的用起来跟个智障一样
|
9
ntdll 1 day ago
我认为很正常,HSK 汉语水平考试,可以尝试到网上搜个历年的真题,作为土生土长的中国人,那个题,我也做不出来。
|
10
keethebest 1 day ago
以前 xhs 上中美大对账的时候,一个美国人做 xhs 上网友发出来的英语题,也是错了很多。
|
11
jheroy 1 day ago via iPhone 很简单,因为大语言模型是根据互联网语料训练的,不是根据英语试卷和标准答案训练的,而互联网语料本来就有很多语法上不对的。 这种特殊需求还不如基于一个开源中小模型用标准答案调优来的好。
|
12
keethebest 1 day ago
最好还是自己建个题库,让 AI 参考
|
13
Sundayz 1 day ago
大家应该都是中国人吧,各位高考语文多少分,把高考语文卷子扔给 AI 能考多少分?
|
14
Enter3211 1 day ago
最近 5.5 降智很多,已经弃用了
|
15
wat4me 1 day ago
应试教育每年四五月都能出来一堆天才少年,真搞素质教育不如直接举孝廉。
|
16
kneep 1 day ago 把争议题目贴出来吧,学校日常的英语试卷,经常遇到整篇材料都是中国人写的。但高考英语严肃程度很高,我认为不大可能。
跟 AI 讨论英语题目的时候,可以要求它无论什么观点,必须给出三条主流英语媒体的语料链接来佐证它的观点,不要空对空谈。 |
17
msaionyc 1 day ago
其实从你这段正文里也能挑出来一大堆不规范用语的。
|
18
billlee 1 day ago
也不奇怪吧,之前的版本输出中文的时候就不讲人话
|
19
clemente 1 day ago
因为美国人日常说话 也不尊重语法语序的, 大模型语料就这样
|
20
wweerrgtc 1 day ago via iPhone
需要为英语考试单独优化模型
|
21
niuniugood 1 day ago
太典了,这才几层楼就好几个反思怪了
单 V2 站内搜索“阀值”这个词就十几页结果,看什么时候大模型能吐出这个词来 |
22
potatowish 1 day ago via iPhone
这是英语,和语文差不多,没有非常标准的答案,只有主观上的常不常用。 你要试试理科试卷
|
23
Nasdaq PRO 一题一题的让 chatgpt 再试下昵?
|
24
laikicka 1 day ago via iPhone @niuniugood 清北学生吃十几年鸭腿当鹅腿,有人指出就把支出那人骂半年多还不说明应试教育出了问题?
|
25
KaynWASD 1 day ago
最基本的 就是一题一题的做
|
26
charlie21 1 day ago
这是优绩主义擅长的
|
27
coderzhangsan 1 day ago
我在想,op 本意是疑惑为什么会错这么多?你只需要回复其结果即可,为什么扯一些毫无关联的东西,比如楼上的反思哥。
------- 原因也很简单,AI 模型都是基于现有开源数据做训练的,如果没有提前给它训练相关领域数据,它的提供的结果会出现较大偏差,对于国内高考而言,GPT 不会专门花钱和精力去做,不然它会成为另一个培训机构,对于封闭行业,AI 提供的帮助微乎其微。 |
28
marcong95 1 day ago
大品葱日常立场先行,高考应试教育哑巴英语这自然是不假,但是起码知识点语法类的还是正确的,语文阅读还能说那种揣摩出题人意图那种主观题,英语应该还是绝大多数还是客观题吧。
各路 LLM 之前还出过 13.11 < 13.8 ,你们为啥不反思一下中国的数学教育呢? |
29
shadowyue 1 day ago
因为现在的 AI 只是超级加强版的文字接龙
只要接龙出来的内容看起来合理就行,它不能也没能力分辨是不是正确的 |
30
lucifer9 1 day ago
我觉得大语言模型不至于连英语语法书都没训练过啊
|
31
potatowish 1 day ago via iPhone
这个和之前用大模型数数、计算错误是一类问题,只不过现在它可以调用工具完成。
|
32
ZztGqk 1 day ago via iPhone
1 分钟就好了?换 pro ?
|
33
potatowish 1 day ago via iPhone
@potatowish 之前的用户是这么评价的,“怎么这么垃圾,计算都能算错”,不接触底层原理的使用者就是这样的。目前看起来只有情绪发泄,不是洗地就是故意拉踩
|
34
mscsky 1 day ago
你用的是深度思考还是快速?
|
35
workingpad2 1 day ago
这里咋这么多洗地反思的,还没说什么呢,大模型不行难道不是很普遍现象吗。
|
36
jackerbauer 1 day ago
感觉 5.5 已经傻的不成样子了
|
37
Rickkkkkkk 1 day ago
你开更高的模式应该不会错,1 分钟做完整张卷子也太快了点。
|
38
hubaq 1 day ago
反思党真多
|
39
ShowYourPrompt 1 day ago
这也可以反思吗?
你这样理解:高考是筛选工具,不是培养工具 筛选,那肯定是找个最公平的方式 语言类的,难道要像面试那样面对面交流来打分吗?主观性、可暗箱操作性太强了。 唯有做题 |
40
admin948 1 day ago
|
41
est 1 day ago
LZ 要不把题目截图一道一道给 gpt 再试试?
我觉得是你 prompt 的姿势有问题。 |
42
LandCruiser 1 day ago
AI 根本不会思考啊,你觉得简单的东西,他不一定把数据训进去了,简单理解就是数据库里没有这个题,你怎么查也查不出来啊
|
44
Dewchame OP @Rickkkkkkk 我开的是 5.5 高级
![]() |
45
bf109_ PRO 用 5.4 试试
|
52
Dewchame OP @coderzhangsan 感谢大佬回复,我有个疑问是,国内的模型按理说会针对这些题目进行训练,比如豆包千问什么的,可是他们做出来的结果比 gpt 还离谱很多;此外,我看很多大佬说可以一道题一道题的问,这样效果会好点,这个是什么原因嘞
|
53
ebushicao 1 day ago
现在 gpt-5.5 降智的太严重了,我刚才让它修复一个进度条没有正常显示的问题,这么简单的问题,它给我改成固定返回 1%的进度。。。给我整蒙了,minimax 都不至于吧
|
56
AmericanExpress 1 day ago via iPhone
高考英语和英语是两种东西
托福雅思虽然也跟英语不一样但跟高考英语比起来还是正常多了 |
57
butanediol2d 1 day ago
我觉得你的这份 Prompt 不好。大模型并不是你说“别看”它就不看了,甚至我觉得有可能因为你把答案给他,并且让他别看答案,导致它故意做错。
|
58
Censhuang 1 day ago
如果你仔细阅读过高考标题,选择的是“最佳选项”,答案也叫“参考答案”。昨天方面还是国产 ai 好一些。
|
59
Cruzz 1 day ago
文科的玩意没法量化模型并不擅长,你让他做数学物理题他会很厉害,全是代码算出来的
|
60
lovelyxiaod 1 day ago
高考英语你应该拿国产模型去做啊.你拿 GPT5.5 这种洋枪洋炮水土不服也是情理之中啊.
|
61
kandaakihito 1 day ago
楼上的都在发什么电呢,怎么还莫名其妙反思上了???
你可以说高考英语的题目死板、无用、都是没有人用了的犄角旮旯的古早语法点,但是要说有大量题目出错了,那还真不至于。这对于 AI 来说应该更简单才对吧? |
63
Dewchame OP @kandaakihito 他是这种:80 分的题,说我错了 20 分,然后我仔细看了之后,其实我只错了 10 分。我就把我的观点告诉他,他说是的,上一次是做错了。然后我说你别敷衍我,然后他说那你错的还是 20 分。(大概是这个意思)
|
64
Dewchame OP |
65
Dewchame OP @butanediol2d 是的楼上几个老哥也指出来了,我不应该这样写提示词
|
66
Zhuzhuchenyan 1 day ago 2026 年下半年了,还是请拥抱更好的 AI 使用方式,特别是对于牵扯到长文本图像识别的任务
使用 Codex ,以 2026 全国一卷为例子 1. 把图片卷子重写成 Latex 格式并检查,得到结果 https://rr.yyhutil.com/dataset/questions.pdf 2. 禁用联网工具完成卷子的客观题格式,输出同样是 Latex 3. 把答案复制到 codex 目录(不在 1 ,2 两步骤复制到目录防止作弊),根据答案批改,最终得到结果: https://rr.yyhutil.com/dataset/answers.pdf 最终答案 ![]() 现在这个时间点最前沿基准模型的能力应付这种考试还是没有丝毫难度的,如果遇到问题,请首先检查自己使用 AI 的能力 |
67
woodfizky 1 day ago V 站是这样的,如果你的标题或者正文能有任何扯到中国不好的地方那流量可能就大大的。
但是如果你的标题是:"为什么 gpt5.5 连 SAT 的 reading, writing and language test 都做不好"那评论区保证都会开始客观的跟你说为什么做不好,这是 LLM 的局限,或者吐槽你用的东西版本落后/调教不行。 |
68
unusualcat 1 day ago
你用国产的大模型嘛,豆包爱学,小猿 ai 啥的。
|
69
LaTero 1 day ago via Android
@coderzhangsan 我自己看了看 op 发的图中的几道题,觉得 ai 说的确实是对的,哪有 last hot for 这种说法?我阅读量也不小了从没见过。虽然在 v 站说这种话政治不正确,但我还是倾向就是应试教育的答案有问题。
|
70
kpprotector 1 day ago
看了图片感觉你一道一道给他试试看更好。
或者是你试题本身的问题。 |
71
LaTero 1 day ago via Android
能发个完整的题吗?我看你的图只能从上下文猜,不知道 gpt 到底是在说你的答案错了还是参考答案错了。比如鸟让船转向的那题,我很难相信这么简单的题参考答案能错,看 gpt 的回答,他的意思似乎是你的理解有问题而不是参考答案有问题?
|
72
k4x7UW92WE8 1 day ago
🥵🥵🥵 想请教一下老哥怎么上传的 pdf
|
73
k4x7UW92WE8 1 day ago
@Zhuzhuchenyan 🥵🥵🥵 想请教一下老哥怎么上传的 pdf
|
74
Zhuzhuchenyan 1 day ago
@k4x7UW92WE8 你说那个 pdf 链接么,这个是我自己的源,公布出来更有信服力一点
|
76
k4x7UW92WE8 1 day ago
@Zhuzhuchenyan 这三个任务是不是在 codex 执行层面看来 是不是都是彼此上下文独立的 可以使用 subagent 或者手动清空上下文
|
77
jhdxr 1 day ago 我很好奇上面觉得国内的英文教育没啥问题的,最高学历都啥水平。。。
虽然 OP 这个肯定是 OP 自己的锅(直接这么发答案对 LLM 要求很高,再往前推半年它答案都未必对应上),但国内的英语考试的确和出去以后用的差距很大。。。 |
78
NoKey 1 day ago
好多反思怪,嘿嘿。。。
|
79
bigdogbigpig PRO 现在还是不能这么简单,需要上一点工程手段才行
|
81
CRH 1 day ago
这种事需要某种程度的 harness ,比如给每一道题都给加上合适的 prompt (“你是一位高中英语老师 blah blah”),每道题重新开一个对话问,他就会聪明很多
整张卷子都扔进去,上下文太长就会降智 你可以把之前 AI 做错的题这么试试看 |
82
Bapper 1 day ago
注意力和思考预算问题吧,一道题一道题发会好很多
|
83
kkwa56188 1 day ago
笑死, 好多盘盘 故意把 OP 这句没看到 "我用了豆包和千问,他们的结果正确率不如 gpt 和 gemini".
如果一份考卷, 的确让大部分的 LLM 都做得不够好, 那.... |
84
sevenday 18h 55m ago via iPhone
看来怎么用对 AI 给出的结果影响也挺大的
|
85
hlwjia PRO 看来卖 AI 课还是有前途
|
86
mscsky 15h 24m ago
有 instant 和增强智能,差别巨大
|
87
Dewchame OP |
88
Dewchame OP @unusualcat 用了的,效果没有 gpt 和 gemini 好
|
90
Dewchame OP @k4x7UW92WE8 #72 就是直接把 pdf 上传给他呀,或者你从桌面直接拖
|