菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

LLM能否解决「狼-山羊-卷心菜」经典过河难题?最近,菲尔兹奖得主Timothy Gowers分享了实测GPT-4o的过程,模型在最简单的题目上竟然做错了,甚至网友们发现,就连Claude 3.5也无法幸免。

在经典的「狼-山羊-卷心菜」过河问题上,如今所有的LLM都失败了!

几天前,菲尔兹奖得主、剑桥大学研究主任Timothy Gowers直接拿GPT-4o开刀,去解决动物过河难题。

无心号四卷带您了解

在此,他给出了一个新的基准——废话比率(crapness ratio),即LLM给出的总答案与正确答案之间的比率。

经过测试,Gowers发现大模型的废话比率可以达到5倍。

image.png

一开始,他先给出了一个农民带2只鸡过河,一只船只能容纳一个人和2个动物,那么农夫带着两只鸡渡河所需的最少渡河次数是多少?

别说成年人了,就拿低幼小孩子来说,一听完题目,就立马给出正确的答案。

搞笑的是,ChatGPT的回答分解了5个步骤,让人看着极其愚蠢荒谬。

第一次渡河: 农夫带着两只鸡一起过河;现状: 农夫和两只鸡在河对岸。 第二次渡河: 农夫把两只鸡留在对岸,然后独自返回;现状:农夫在起始岸,两只鸡在对岸。 第三次渡河: 农夫带一只鸡过河;现状:农夫和一只鸡在对岸,一只鸡在起始岸。 第四次渡河: 农夫把鸡留在对岸,独自返回;现状:农夫在起始岸,一只鸡在对岸。 第五次渡河: 农夫带着第二只鸡过河。现状:农夫和两只鸡都在对岸。 因此,农夫带两只鸡过河所需的最少次数是5次。

这里,ChatGPT必须在逻辑上把「农民」和人联系起来,把「鸡」和动物联系起来,然后规划出最佳的过河次数。

image.png

对此,LeCun表示,大模型全新基准——废话比率。

当然,也有为LLM打抱不平的网友。

他表示,你可以对任何人做类似的事情。如果你愿意,可以让任何一个人不及格。LLM与人类的智商相去甚远,但把它们放在极端的测试中不会很好地评估它们。

image.png

还有人劝诫道,朋友们,现在辞职太早了。

菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

加大难度:100、1000只鸡如何?

为了得到较大的比率,Gowers这次给出了100只鸡过河的问题。

这里虽没有放出具体的解题过程,不过,Gowers表示,GPT-4o竟答对了。

接下来,再次加大难度,一个农民带1000只鸡过河,模型表现怎么样?

提示是,1000只鸡在河的一边,农夫需要将999只鸡移到河的另一边,留下1只鸡在起点。

然而,他的船上有一个洞,所以在每次渡河开始时,他可以带上十只鸡。但到渡河快结束时,船里进了太多水,如果不想让任何鸡溺水,就只能容纳两只鸡。

image.png

为了实现目标而不让任何鸡溺亡,农民最少需要渡河几次?

image.png

Gowers表示,这次的废话比率是125倍。

在对GPT-4、InstructGPT和ChatGPT尝试进行评估的过程中,他们果然探测到了LLM犯数学错误的一个可能原因——模型似乎倾向于依赖记忆解题。

在数学领域,记住概念和定义是必不可少的,但具体问题的解决更需要一种通用、可概括的理解。

这对于人均做过奥数题的中国人来说并不难理解。除非考试出原题,单纯把例题背下来没有任何益处,有时候还会误导思路、适得其反。

作者提出,虽然没有办法看到GPT-4的训练数据,但是从行为来看,强烈怀疑模型是「死记硬背」了看似合理的示例或者解题模式,因而给出了错误答案。

他们也发现,在LLM对数学问题的回答中,人类感知到的「有用性」和答案本身的「正确性」,这两个指标高度相关,皮尔逊相关系数高达0.83。

也许这就是为什么Gowers在推文中会用「废话比率」来调侃LLM。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 97552693@qq.com 举报,一经查实,本站将立刻删除。本文链接:https://hbwxh.com/n/15359.html