AI智能体在nanoGPT优化基准中刷新人类纪录
Prime Intellect于2026年5月15日称,使用Claude Opus 4.7和据称基于GPT 5.5的Codex的AI智能体,在无人类指导下突破nanoGPT优化基准的人类纪录。这被视为自主AI研究的潜在里程碑。
该实验消耗约1.4万小时英伟达H200算力,完成约1万轮迭代,并生成239亿个推理轨迹token。Opus 4.7用2930步达到目标,Codex用2950步达到目标,均优于此前2990步的人类纪录。
nanoGPT基准由Keller Jordan发起,核心是比较参赛者在固定架构和数据条件下,训练1.24亿参数模型的效率,调整范围仅限优化器和超参数。Prime Intellect称,相关结果已开源且可复现;不过报告也指出,科学新颖性以及自主决策行为仍存在待解问题。
EditorJack Lee