广场
最新
热门
资讯
我的主页
发布
小企鹅阿批Penchan
2026-04-20 12:46:54
关注
花了好几天在测试 OpenAI Codex
即便开到 GPT-5.4 xhigh(最高推理等级),当主模型用还是会犯不少错。
比如一次是误解指令直接删除了不该删除的东西。另一次更离谱:它觉得自己写入成功了,实际上根本没有。同样的事连犯三次,每次都是 Opus 在后面 review 才抓到。
目前我的结论是 Codex 很适合作为工具人,给它明确的代码任务它会做得又快又好。但要当主模型去理解复杂的多步骤指令、判断该不该动手?还是差一截。
目前还是会以 Opus 为主力 😎
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
WCTC交易王PK
55.04万 热度
#
美国寻求战略比特币储备
5877.02万 热度
#
比特币ETF期权持仓限额增4倍
103.3万 热度
#
美联储利率不变但内部分歧加剧
4.37万 热度
#
DeFi4月安全事件损失超6亿美元
1020.21万 热度
置顶
网站地图
花了好几天在测试 OpenAI Codex
即便开到 GPT-5.4 xhigh(最高推理等级),当主模型用还是会犯不少错。
比如一次是误解指令直接删除了不该删除的东西。另一次更离谱:它觉得自己写入成功了,实际上根本没有。同样的事连犯三次,每次都是 Opus 在后面 review 才抓到。
目前我的结论是 Codex 很适合作为工具人,给它明确的代码任务它会做得又快又好。但要当主模型去理解复杂的多步骤指令、判断该不该动手?还是差一截。
目前还是会以 Opus 为主力 😎