ระบบ AI ทำลายสถิติมนุษย์ในเบนช์มาร์กการปรับแต่ง nanoGPT แบบอัตโนมัติ
Prime Intellect รายงานเมื่อวันที่ 15 พฤษภาคม 2026 ว่า AI agents ที่ใช้ Claude Opus 4.7 และ Codex ซึ่งระบุว่าอิงกับ GPT 5.5 สามารถทำผลงานเหนือสถิติมนุษย์ในเบนช์มาร์กการปรับแต่ง nanoGPT ได้โดยไม่มีการชี้นำจากมนุษย์ เหตุการณ์นี้อาจถือเป็นหมุดหมายสำคัญของงานวิจัย AI แบบอัตโนมัติ
ห้องปฏิบัติการระบุว่า การทดสอบใช้กำลังประมวลผลของ Nvidia H200 ราว 14,000 compute-hours มีการวนซ้ำประมาณ 10,000 รอบ และสร้าง reasoning traces รวม 23.9 พันล้านโทเคน โดย Opus 4.7 บรรลุเป้าหมายใน 2,930 ขั้นตอน ส่วน Codex ใช้ 2,950 ขั้นตอน ต่ำกว่าสถิติมนุษย์เดิมที่ 2,990 ขั้นตอนทั้งคู่
เบนช์มาร์ก nanoGPT ซึ่งริเริ่มโดย Keller Jordan ใช้วัดประสิทธิภาพในการฝึกโมเดลขนาด 124 ล้านพารามิเตอร์ ภายใต้สถาปัตยกรรมและชุดข้อมูลเดียวกัน โดยอนุญาตให้ปรับเฉพาะ optimizer และ hyperparameters เท่านั้น Prime Intellect ระบุว่าผลลัพธ์เปิดเป็นโอเพนซอร์สและทำซ้ำได้ อย่างไรก็ดี รายงานยังชี้ว่ายังมีคำถามค้างอยู่เกี่ยวกับความใหม่ในเชิงวิทยาศาสตร์ และพฤติกรรมการตัดสินใจแบบอัตโนมัติของระบบ