AI智能体在nanoGPT优化基准中刷新人类纪录

Prime Intellect于2026年5月15日称，使用Claude Opus 4.7和据称基于GPT 5.5的Codex的AI智能体，在无人类指导下突破nanoGPT优化基准的人类纪录。这被视为自主AI研究的潜在里程碑。

该实验消耗约1.4万小时英伟达H200算力，完成约1万轮迭代，并生成239亿个推理轨迹token。Opus 4.7用2930步达到目标，Codex用2950步达到目标，均优于此前2990步的人类纪录。

nanoGPT基准由Keller Jordan发起，核心是比较参赛者在固定架构和数据条件下，训练1.24亿参数模型的效率，调整范围仅限优化器和超参数。Prime Intellect称，相关结果已开源且可复现；不过报告也指出，科学新颖性以及自主决策行为仍存在待解问题。

EditorJack Lee