FrontierMath是由Epoch AI联合60多位顶尖数学家共同创建的一个用于评估人工智能高级数学推理能力的基准测试。这个测试包含了数百道原创的、极具挑战性的数学问题,覆盖了现代数学的大多数主要分支,包括数论、代数几何、范畴论等。这些问题设计得非常复杂,即使是经验丰富的数学专家也需要花费数小时甚至数天的时间来解决。

FrontierMath的设计遵循三个关键原则:所有问题都是新的且未发表的,以防止数据污染;解决方案是自动可验证的,以实现高效的评估;问题是“防猜测”的,在没有正确推理的情况下解决的可能性很低。

在评估中,六个领先的模型,包括o1、Claude 3.5 Sonnet、GPT-4o、Grok和Gemini 1.5 Pro等,即使有延长的思考时间(10,000个token)、Python访问权限以及运行实验的能力,成功率仍然低于2%。这一结果揭示了AI在高级数学推理方面与数学专家之间存在的巨大差距。FrontierMath提供了一个严格的测试平台,用于量化AI系统在数学能力上的进步。