每日消费电子观察
20:15 · Nov 15, 2024 · Fri
LLM 数学基准测试集 FrontierMath 公布:号称多数题型 AI 没学过、业界模型均败北 - IT之家
https://www.ithome.com/0/810/901.htm
Ithome
LLM 数学基准测试集 FrontierMath 公布:号称多数题型 AI 没学过、业界模型均败北 - IT之家
研究机构 Epoch AI 现公布了一款名为 FrontierMath 的全新 AI 模型数学基准测试集,旨在评估系列模型的数学推理能力。FrontierMath 的题目由人工智能学方面资深专家设计,相应问题号称不仅要求 AI 理解数学概念,还需要具备复杂情境的推理能力,以避免模型利用以前学习过的类似题目进行比对作答。研究机构表示,他们利用 FrontierMath 对当前市场上的 AI 模型进行初步测试,发现这些模型普遍表现不佳,包括此前在 GSM-8K、MATH 上取得近乎满分成绩的 Claude 3.5…
Home
竹新社
参考消息
南华早报
风向旗参考快讯
每日消费电子观察
Find me in
Telegram