Falcon-40B 大语言模型

标签: LLM 更新于: 2024/11/07 阅读:160

Falcon-40B是由阿布扎比的技术创新研究院（Technology Innovation Institute, TII）开发的一系列新语言模型中的一个，具有40B（即400亿）参数的因果解码器模型。以下是关于Falcon-40B的一些详细信息：

性能：Falcon-40B在Open LLM排行榜中名列前茅，超过了LLaMA、StableLM、RedPajama、MPT等模型，是目前性能优越的开源模型之一。
架构：Falcon-40B采用了优化的架构，包括FlashAttention（Dao等人，2022年）和multiquery（Shazeer等人，2019年）。
训练细节：Falcon-40B在RefinedWeb上训练了1,000B个令牌，RefinedWeb是一个经过筛选和去重的高质量网络数据集，TII还在其中增加了精选的语料库。模型在AWS SageMaker上使用384个A100 40GB GPUs进行训练，使用了3D并行策略（TP=8，PP=4，DP=12）和ZeRO技术，训练从2022年12月开始，持续了两个月。
开源协议和商用授权：Falcon-40B最初在TII Falcon LLM License下提供，但最新消息显示，Falcon系列模型已经全部采用Apache 2.0开源协议，完全开源，允许商业使用。Apache 2.0是一个宽松的开源许可证，确保了软件的安全性和可用性，并建立了有效的治理模型。
模型特点：Falcon-40B是一个原始的预训练模型，应该进一步微调以适应大多数用例。
推理效率：Falcon-40B的推理效率是GPT-3推理时间的1/5，这使得它在实际应用中更加高效。

Falcon-40B的开源和高性能特点，使其成为研究和商业应用中一个非常有吸引力的选择。