CMMLU(Chinese Multi-task Language Understanding)是一个全新的中文多任务基准数据集,旨在全面评估大型语言模型(LLMs)在中文语言和文化背景下的高级知识和推理能力。这个数据集覆盖了从基础到高级专业水平的67个主题,包括自然科学、社会科学、工程、人文以及常识等领域,并且特别注重中国特色的内容,如“中国饮食文化”、“名族学”、“中国驾驶规则”等。

CMMLU的数据集特点包括:

  1. 包含多个选择题和问答任务,每个问题都是带有4个选项的多项选择题,仅有一个正确答案。

  2. 许多任务因其特定的上下文细微差别和措辞,不易从其他语言翻译。

  3. 许多任务的答案特定于中国,可能不适用于其他地区或语言。

  4. 提供每个主题的开发和测试数据集,开发集包含5个问题,测试集包含100多个问题。

CMMLU的应用价值主要体现在以下几个方面:

  • 为评估大模型在中文语境下的性能表现提供了一个有力的工具。
  • 通过使用CMMLU进行测试和评估,可以全面了解模型的优缺点,进一步推动模型的优化和发展。
  • 有助于深化对中文语言和文化的理解,推动相关领域的研究进展。

CMMLU的数据集可以通过Python代码加载,支持按主题加载或一次性加载所有数据,并且遵循 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。这个数据集的发布,为中文自然语言处理的研究提供了宝贵的资源,有助于推动中文NLP技术的发展和应用。