GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA

号称不可能轻易被击败的AGI基准ARC-AGI被GPT-4o撼动,GPT-4o以在公共测试集50%、在训练集71%的准确率成为了新的SOTA!

无心号四卷带您了解

ARC-AGI是唯一可以用来衡量通用人工智能进展的基准,创造者François Chollets曾经掷下豪言——

「它不可能轻易被击败!」

为了测试这一点,他于2020年在 Kaggle(Google LLC旗下的数据科学竞赛平台)上主办了首届ARC-AGI竞赛。

获胜团队icecuber在测试集上仅取得了21%的成功率,这个成绩强有力地证明了François的断言是正确的。

此后几年,来自世界各地的挑战者不断刷新这个纪录,但进展缓慢。ARC-AGI似乎成为了一座不可跨越的高山。

可是这周二,ARC-AGI基准无法被挑战的神话被GPT-4o撼动了!GPT-4o以在公共测试集50%、在训练集的保留子集71%的准确率成为了新的SOTA!

GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA

ARC-AGI上周被大肆宣传为LLM无法解决的基准。这个说法激发了我亲爱的同事Ryan Greenblatt的斗志,因此他上周试图用 LLMs 来解决这个问题。Ryan在一组示例中获得了 71% 的准确率,而人类的准确率为 85%;这(GPT-4o)是SOTA。

GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA

这个消息也迅速登上了HN热搜榜。

GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA

值得一提的是,今年Mike Knoop、François和Lab42联手创建了2024年ARC奖,奖金池超过110万美元。

为了完成这个挑战,Ryan放弃了一个星期的项目,设计了很多花哨的技巧,争取了高性能:

训练集:71% vs. 人类基线 85%

测试集:51% vs. 之前的 SOTA 34%(人类基线未知)

但遗憾的是,此提交不符合 ARC-AGI 奖项和主要排行榜的资格,因为它使用闭源模型和过多的运行时计算。

可能Ryan会提交到私人排行榜中吧。

GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA

什么是ARC-AGI?

ARC-AGI的数据集由视觉问题组成,输入输出示例是由彩色单元格组成的网格,任务是猜测从输入到输出的转换规律,然后补全缺失的网格。

GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA

看起来很简单对吧,就像是小学的奥数题,让GPT-4o来解决也并不困难。

不过,公共测试集中的任务要难得多,对于人类来说,也会有些棘手,但并非不可解决。

每一项ARC-AGI任务都是经过人工验证的,包括公共测试集,确保ARC-AGI的所有任务都可以由人类解决。

毕竟这是一个通用人工智能基准,如果连人类自己都难倒了,那拿去测试LLM也说不过去。

据报道,亚马逊土耳其机器人( Amazon Mechanical Turk,MTurk) 训练分布的人类基线是85%,但没有针对公开测试集的人类基线,不过我们已知的是,公开测试集更难,那么针对公开测试集的人类基线应该会更低。

Ryan给出了测试集中的一些代表性的问题,以及他基于GPT-4o的解决方案是否回答正确。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 97552693@qq.com 举报,一经查实,本站将立刻删除。本文链接:https://hbwxh.com/n/14353.html