Falcon-40B是由阿布扎比的技术创新研究院(Technology Innovation Institute, TII)开发的一系列新语言模型中的一个,具有40B(即400亿)参数的因果解码器模型。以下是关于Falcon-40B的一些详细信息:

  1. 性能:Falcon-40B在Open LLM排行榜中名列前茅,超过了LLaMA、StableLM、RedPajama、MPT等模型,是目前性能优越的开源模型之一。

  2. 架构:Falcon-40B采用了优化的架构,包括FlashAttention(Dao等人,2022年)和multiquery(Shazeer等人,2019年)。

  3. 训练细节:Falcon-40B在RefinedWeb上训练了1,000B个令牌,RefinedWeb是一个经过筛选和去重的高质量网络数据集,TII还在其中增加了精选的语料库。模型在AWS SageMaker上使用384个A100 40GB GPUs进行训练,使用了3D并行策略(TP=8,PP=4,DP=12)和ZeRO技术,训练从2022年12月开始,持续了两个月。

  4. 开源协议和商用授权:Falcon-40B最初在TII Falcon LLM License下提供,但最新消息显示,Falcon系列模型已经全部采用Apache 2.0开源协议,完全开源,允许商业使用。Apache 2.0是一个宽松的开源许可证,确保了软件的安全性和可用性,并建立了有效的治理模型。

  5. 模型特点:Falcon-40B是一个原始的预训练模型,应该进一步微调以适应大多数用例。

  6. 推理效率:Falcon-40B的推理效率是GPT-3推理时间的1/5,这使得它在实际应用中更加高效。

Falcon-40B的开源和高性能特点,使其成为研究和商业应用中一个非常有吸引力的选择。