菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Claude 3.5回答离谱，LeCun嘲讽LLM-无心号

LLM能否解决「狼-山羊-卷心菜」经典过河难题？最近，菲尔兹奖得主Timothy Gowers分享了实测GPT-4o的过程，模型在最简单的题目上竟然做错了，甚至网友们发现，就连Claude 3.5也无法幸免。

在经典的「狼-山羊-卷心菜」过河问题上，如今所有的LLM都失败了！

几天前，菲尔兹奖得主、剑桥大学研究主任Timothy Gowers直接拿GPT-4o开刀，去解决动物过河难题。

无心号四卷带您了解

在此，他给出了一个新的基准——废话比率（crapness ratio），即LLM给出的总答案与正确答案之间的比率。

经过测试，Gowers发现大模型的废话比率可以达到5倍。

一开始，他先给出了一个农民带2只鸡过河，一只船只能容纳一个人和2个动物，那么农夫带着两只鸡渡河所需的最少渡河次数是多少？

别说成年人了，就拿低幼小孩子来说，一听完题目，就立马给出正确的答案。

搞笑的是，ChatGPT的回答分解了5个步骤，让人看着极其愚蠢荒谬。

第一次渡河：农夫带着两只鸡一起过河；现状：农夫和两只鸡在河对岸。第二次渡河：农夫把两只鸡留在对岸，然后独自返回；现状：农夫在起始岸，两只鸡在对岸。第三次渡河：农夫带一只鸡过河；现状：农夫和一只鸡在对岸，一只鸡在起始岸。第四次渡河：农夫把鸡留在对岸，独自返回；现状：农夫在起始岸，一只鸡在对岸。第五次渡河：农夫带着第二只鸡过河。现状：农夫和两只鸡都在对岸。因此，农夫带两只鸡过河所需的最少次数是5次。

这里，ChatGPT必须在逻辑上把「农民」和人联系起来，把「鸡」和动物联系起来，然后规划出最佳的过河次数。

对此，LeCun表示，大模型全新基准——废话比率。

当然，也有为LLM打抱不平的网友。

他表示，你可以对任何人做类似的事情。如果你愿意，可以让任何一个人不及格。LLM与人类的智商相去甚远，但把它们放在极端的测试中不会很好地评估它们。

还有人劝诫道，朋友们，现在辞职太早了。

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Claude 3.5回答离谱，LeCun嘲讽LLM

加大难度：100、1000只鸡如何？

为了得到较大的比率，Gowers这次给出了100只鸡过河的问题。

这里虽没有放出具体的解题过程，不过，Gowers表示，GPT-4o竟答对了。

接下来，再次加大难度，一个农民带1000只鸡过河，模型表现怎么样？

提示是，1000只鸡在河的一边，农夫需要将999只鸡移到河的另一边，留下1只鸡在起点。

然而，他的船上有一个洞，所以在每次渡河开始时，他可以带上十只鸡。但到渡河快结束时，船里进了太多水，如果不想让任何鸡溺水，就只能容纳两只鸡。

为了实现目标而不让任何鸡溺亡，农民最少需要渡河几次？

Gowers表示，这次的废话比率是125倍。

在对GPT-4、InstructGPT和ChatGPT尝试进行评估的过程中，他们果然探测到了LLM犯数学错误的一个可能原因——模型似乎倾向于依赖记忆解题。

在数学领域，记住概念和定义是必不可少的，但具体问题的解决更需要一种通用、可概括的理解。

这对于人均做过奥数题的中国人来说并不难理解。除非考试出原题，单纯把例题背下来没有任何益处，有时候还会误导思路、适得其反。

作者提出，虽然没有办法看到GPT-4的训练数据，但是从行为来看，强烈怀疑模型是「死记硬背」了看似合理的示例或者解题模式，因而给出了错误答案。

他们也发现，在LLM对数学问题的回答中，人类感知到的「有用性」和答案本身的「正确性」，这两个指标高度相关，皮尔逊相关系数高达0.83。

也许这就是为什么Gowers在推文中会用「废话比率」来调侃LLM。

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 97552693@qq.com 举报，一经查实，本站将立刻删除。本文链接：https://hbwxh.com/n/15359.html

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Claude 3.5回答离谱，LeCun嘲讽LLM

相关推荐