宾州华顿商学院教授 Ethan Mollick 于 4/25 的 X 平台贴文提出一个对学术界具强烈冲击的观察:当前的 AI agent 已经能在没有原始论文与没有原始码的情况下,仅凭公开的方法描述与资料,独立重现复杂的学术研究结果。Mollick 进一步指出,这些 AI 重现的版本与原论文有出入时,「错误往往出在人类论文本身,而非 AI」。这是一项科研可重现性危机在生成式 AI 时代的一次实质转折——过去需要昂贵人力才能进行的同行验证,正在被 AI 大规模、低成本完成。
Claude 重现多篇论文,再以 GPT-5 Pro 双重验证
Mollick 在他的 OneUsefulThing 部落格与本次推文中,描述了他对 Claude 的具体实验:把一篇学术论文交给 Claude,让它打开存档、整理档案、把统计用的 STATA 程式码自动转换为 Python,再逐一执行论文中的所有发现。Claude 完成后,他再用 GPT-5 Pro 对同一份重现结果做第二轮检查。多篇论文被以同样的方式测试,结果普遍成功,仅在资料档案过大或原始 replication data 本身有问题时受阻。
对学术界而言,这个流程过去通常需要研究助理花费数週甚至数月。Mollick 描述的时间规模是一下午到一天,且运行成本只有商用 LLM API 的 token 费用。
错误多在人类原文,不是 AI
更具争议性的是 Mollick 对「谁错了」的判断。他在推文中明言,当 AI 重现结果与原论文不一致时,多数情况不是 AI 弄错,而是原论文有资料处理错误、模型误用、或结论超出资料支撑的范围。心理学、行为经济学、管理学等社会科学近十年内已出现多次重大可重现性危机事件,最有名的是 2015 年 Open Science Collaboration 的大型重现研究,仅约 36% 的心理学论文结果能被独立重现。AI agent 把这个检验过程从「需要人力配比」推到「可被普遍执行」的边界。
学会仍禁 AI 入审稿,制度落后技术
Mollick 在另一则 4/25 推文中具体点名其所属领域最大的学会 Academy of Management 仍明文禁止 AI 进入论文审稿流程。他引用既有研究指出,AI 审稿在准确度、一致性与偏见控制上已优于部分传统人类审稿人,因此「禁止」这个立场可能反向加重既有审稿系统的失灵。这种制度与技术之间的落差,是接下来 1–2 年学术出版界、学会与资助机构都必须面对的政策议题。
对读者而言,这场辩论并非局限于学界。当 AI agent 能即时验证研究发现,产业界的研究引用、政策报告、财务决策中的学术依据,将进入一个「结论是否承受得住独立 AI 重现」的新检验门槛。对应 Mollick 在另一则推文的补充,他认为政府是唯一能在工具强度持续上升时为这个检验机制定锚的单位——而政策设计的复杂度,将同步成为 AI 治理讨论中相对被忽视的一条主轴。
这篇文章 AI Agent 已可独立重现复杂学术论文:Mollick 称错误多在人类原文而非 AI 最早出现在 鏈新聞 ABMedia。
相关文章