LASER3是“无语言遗留”(No Language Left Behind,简称NLLB)项目的一部分,该项目旨在开发新的LASER编码器,特别关注支持特定语言的LASER3编码器。LASER3的每个编码器都有一个它支持的重点语言,并且可以在项目的README文件底部找到所有可用LASER3编码器的完整列表。
LASER3的主要特点包括:
-
重点语言支持:每个LASER3编码器专注于支持一种特定的语言,这有助于提升该语言的处理性能。
-
模型更新:LASER3包括了原始LASER编码器的更新版本——LASER2,这个改进模型支持LASER训练时使用的所有语言。
-
训练细节:关于LASER2和LASER3编码器的训练细节,可以参考Heffernan等人在2022年的研究。
-
代码提供:项目还提供了训练LASER3师生模型和stopes(一种新的强大的灵活挖掘库)的代码。
-
下载编码器:可以通过运行
download_models.sh
脚本来下载可用的编码器,默认情况下会下载LASER2和所有LASER3编码器,但可以选择下载特定语言的LASER3编码器以节省磁盘空间。 -
嵌入文本:下载编码器后,可以按照提供的说明开始嵌入文本。
-
可用编码器列表:LASER3为每种重点语言提供了编码器,格式为
laser3-{language_code}
。
LASER3通过利用之前未知的方法构建具有跨语言转移能力的大规模多语言模型,从而克服了低资源语言的数据限制,使得相关语言能够相互学习。这项技术在提高机器翻译的质量方面取得了显著成效,尤其是在支持低资源语言方面。