两句话,让 LLM 逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷
https://www.ithome.com/0/774/281.htm
https://arxiv.org/abs/2406.02061 (英文)
https://github.com/LAION-AI/AIW (英文)
在基准测试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,研究机构 LAION 的几位作者共同发表了一篇文章,以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题,揭示了 LLM 基准测试的盲区。
一道简单的逻辑问题,竟让几乎所有的 LLM 全军覆没?
对于人类来说,这个名为「爱丽丝梦游仙境」(AIW)的测试并不算很难 ——「爱丽丝有 N 个兄弟,她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹?」
只需稍加思考,答案显而易见:M+1。(爱丽丝拥有的姐妹数量,再加上爱丽丝自己)
但是,当研究人员让 GPT-3.5/4、Claude、Gemini、Llama、Mistral 等模型回答时,得到的结果却非常离谱。只有 OpenAI 最新的 GPT-4o 勉强及格。
https://www.ithome.com/0/774/281.htm
https://arxiv.org/abs/2406.02061 (英文)
https://github.com/LAION-AI/AIW (英文)
在基准测试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,研究机构 LAION 的几位作者共同发表了一篇文章,以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题,揭示了 LLM 基准测试的盲区。
一道简单的逻辑问题,竟让几乎所有的 LLM 全军覆没?
对于人类来说,这个名为「爱丽丝梦游仙境」(AIW)的测试并不算很难 ——「爱丽丝有 N 个兄弟,她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹?」
只需稍加思考,答案显而易见:M+1。(爱丽丝拥有的姐妹数量,再加上爱丽丝自己)
但是,当研究人员让 GPT-3.5/4、Claude、Gemini、Llama、Mistral 等模型回答时,得到的结果却非常离谱。只有 OpenAI 最新的 GPT-4o 勉强及格。