GPT-4o攻破ARC-AGI无法被挑战的神话！71%准确率成新SOTA-无心号

号称不可能轻易被击败的AGI基准ARC-AGI被GPT-4o撼动，GPT-4o以在公共测试集50%、在训练集71%的准确率成为了新的SOTA！

无心号四卷带您了解

ARC-AGI是唯一可以用来衡量通用人工智能进展的基准，创造者François Chollets曾经掷下豪言——

「它不可能轻易被击败！」

为了测试这一点，他于2020年在 Kaggle（Google LLC旗下的数据科学竞赛平台）上主办了首届ARC-AGI竞赛。

获胜团队icecuber在测试集上仅取得了21%的成功率，这个成绩强有力地证明了François的断言是正确的。

此后几年，来自世界各地的挑战者不断刷新这个纪录，但进展缓慢。ARC-AGI似乎成为了一座不可跨越的高山。

可是这周二，ARC-AGI基准无法被挑战的神话被GPT-4o撼动了！GPT-4o以在公共测试集50%、在训练集的保留子集71%的准确率成为了新的SOTA！

GPT-4o攻破ARC-AGI无法被挑战的神话！71%准确率成新SOTA

ARC-AGI上周被大肆宣传为LLM无法解决的基准。这个说法激发了我亲爱的同事Ryan Greenblatt的斗志，因此他上周试图用 LLMs 来解决这个问题。Ryan在一组示例中获得了 71% 的准确率，而人类的准确率为 85%；这（GPT-4o）是SOTA。

GPT-4o攻破ARC-AGI无法被挑战的神话！71%准确率成新SOTA

这个消息也迅速登上了HN热搜榜。

GPT-4o攻破ARC-AGI无法被挑战的神话！71%准确率成新SOTA

值得一提的是，今年Mike Knoop、François和Lab42联手创建了2024年ARC奖，奖金池超过110万美元。

为了完成这个挑战，Ryan放弃了一个星期的项目，设计了很多花哨的技巧，争取了高性能：

训练集：71% vs. 人类基线 85%

测试集：51% vs. 之前的 SOTA 34%（人类基线未知）

但遗憾的是，此提交不符合 ARC-AGI 奖项和主要排行榜的资格，因为它使用闭源模型和过多的运行时计算。

可能Ryan会提交到私人排行榜中吧。

GPT-4o攻破ARC-AGI无法被挑战的神话！71%准确率成新SOTA

什么是ARC-AGI？

ARC-AGI的数据集由视觉问题组成，输入输出示例是由彩色单元格组成的网格，任务是猜测从输入到输出的转换规律，然后补全缺失的网格。

GPT-4o攻破ARC-AGI无法被挑战的神话！71%准确率成新SOTA

看起来很简单对吧，就像是小学的奥数题，让GPT-4o来解决也并不困难。

不过，公共测试集中的任务要难得多，对于人类来说，也会有些棘手，但并非不可解决。

每一项ARC-AGI任务都是经过人工验证的，包括公共测试集，确保ARC-AGI的所有任务都可以由人类解决。

毕竟这是一个通用人工智能基准，如果连人类自己都难倒了，那拿去测试LLM也说不过去。

据报道，亚马逊土耳其机器人( Amazon Mechanical Turk，MTurk) 训练分布的人类基线是85%，但没有针对公开测试集的人类基线，不过我们已知的是，公开测试集更难，那么针对公开测试集的人类基线应该会更低。

Ryan给出了测试集中的一些代表性的问题，以及他基于GPT-4o的解决方案是否回答正确。

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 97552693@qq.com 举报，一经查实，本站将立刻删除。本文链接：https://hbwxh.com/n/14353.html

GPT-4o攻破ARC-AGI无法被挑战的神话！71%准确率成新SOTA