“Chinchilla law”通常指的是2022年DeepMind团队在论文「Training Compute - Optimal Large Language Models」中提出的Chinchilla Scaling Law。以下是对它的具体介绍:
-
核心内容:该定律主张在有限的计算预算下,均衡增加模型规模和数据量,以实现语言模型训练的优化。它提出损失函数公式为特定形式,其中α=0.34、β=0.28,分别表示模型规模和数据量对损失的影响。同时,算力c应与模型参数数量n和数据规模d之间满足近似比例关系c ≈ 6nd。在此约束下,当计算预算c增加时,模型的最优参数量nopt(c)和最优数据量dopt(c)可以按照相应公式计算。
-
重要影响:
- 数据有效的模型开发:通过均衡增加模型参数和数据量,DeepMind能够开发出计算最优的模型,如具有70b的Chinchilla,在性能上超越了仅依靠更大参数量的模型。
- 应对数据稀缺问题:强调数据和模型规模的同步增长,使得在数据受限的情况下也能实现最佳性能,为最大化现有数据资源的价值提供了理论依据。
- 性能预测和计算资源管理:提供了小规模模型预测大规模模型表现的方法,使研究人员在资源受限的情况下更科学地分配预算,评估模型在特定预算和数据条件下的预期性能。
- 高效的训练优化:其均衡扩展策略可以有效减少训练中的资源浪费,降低性能提升的递减效应,提高模型开发的成本效益。