CMMLU（Chinese Multi-task Language Understanding）中文多任务基准数据集

标签: 数据集 , LLM 更新于: 2024/12/25 阅读:182

CMMLU（Chinese Multi-task Language Understanding）是一个全新的中文多任务基准数据集，旨在全面评估大型语言模型（LLMs）在中文语言和文化背景下的高级知识和推理能力。这个数据集覆盖了从基础到高级专业水平的67个主题，包括自然科学、社会科学、工程、人文以及常识等领域，并且特别注重中国特色的内容，如“中国饮食文化”、“名族学”、“中国驾驶规则”等。

CMMLU的数据集特点包括：

包含多个选择题和问答任务，每个问题都是带有4个选项的多项选择题，仅有一个正确答案。
许多任务因其特定的上下文细微差别和措辞，不易从其他语言翻译。
许多任务的答案特定于中国，可能不适用于其他地区或语言。
提供每个主题的开发和测试数据集，开发集包含5个问题，测试集包含100多个问题。

CMMLU的应用价值主要体现在以下几个方面：

为评估大模型在中文语境下的性能表现提供了一个有力的工具。
通过使用CMMLU进行测试和评估，可以全面了解模型的优缺点，进一步推动模型的优化和发展。
有助于深化对中文语言和文化的理解，推动相关领域的研究进展。

CMMLU的数据集可以通过Python代码加载，支持按主题加载或一次性加载所有数据，并且遵循 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。这个数据集的发布，为中文自然语言处理的研究提供了宝贵的资源，有助于推动中文NLP技术的发展和应用。

CMMLU（Chinese Multi-task Language Understanding）中文多任务基准数据集

数据集相关文章

LLM相关文章

最近热门

最常浏览