No Language Left Behind(NLLB)是一个由Meta AI发起的项目,旨在推动机器翻译技术的发展,特别是对于那些资源匮乏的语言。以下是关于NLLB项目的详细信息:

  1. 项目目标:NLLB项目的核心目标是“不让任何一门语言掉队”,即支持200种语言之间的互译,包括许多资源匮乏的语言。

  2. 研究发表:这项研究发表在《Nature》杂志上,题为「Scaling neural machine translation to 200 languages」,论文地址为:Scalling neural machine translations to 200 languages

  3. 模型性能:NLLB模型在支持的语言数量上是前所未有的,它包括了三倍于高资源语言的低资源语言,并且平均性能比之前的最先进系统提高了44%。

  4. 数据收集:为了支持200种语言,Meta团队将需要翻译的语种范围定在Wikipedia的最常用200种语言上,并为这些语言构建了测试集flores-200。

  5. 开源贡献:NLLB模型可以免费提供给非商业用途,这对于低资源语种社区来说是一个巨大的福音,因为它有助于缩小语言之间的数字鸿沟。

  6. 技术挑战:NLLB项目面临的挑战包括训练数据的获取,尤其是对于低资源语言,这些数据既昂贵又难以获得。项目通过大规模数据挖掘和单语数据管道来解决这一问题。

  7. 模型和评估技术:NLLB项目使用了多种数据集来训练多语言条件计算模型,特别是Sparsely Gated Mixtures-of-Experts模型,这些模型能够在不增加不相关语言之间干扰的情况下,实现相关语言之间的跨语言转移。

  8. 社会影响:NLLB项目不仅在技术上具有创新性,而且在社会层面上也具有重要意义,它有助于保护和复兴那些濒临灭绝的语言。

综上所述,No Language Left Behind项目是一个具有深远影响的多语言机器翻译项目,它通过技术创新和开源合作,为全球语言的平等交流和文化多样性的保护做出了贡献。