LipFormer是一个基于视觉-地标变换器(Visual-Landmark Transformers)的句子级唇读框架。它旨在提高模型对未见说话者的泛化能力,即能够对训练集中未出现的说话者进行有效的唇读。LipFormer通过结合视觉特征和面部地标特征来描述嘴唇运动,这些特征与说话者的身份无关,从而减少模型对特定说话者嘴唇形状和颜色的视觉变化的依赖,避免过拟合。
LipFormer框架包含三个主要部分:嘴唇运动流、面部地标流和跨模态融合。嘴唇运动流和面部地标流分别提取嘴唇区域的视觉特征和面部地标特征,并通过自注意力机制生成嵌入。这些嵌入随后被送入交叉注意力模块,以实现视觉和地标特征之间的对齐。最终,融合的特征通过级联的序列到序列模型(seq2seq)被解码成文本输出。
实验表明,LipFormer能够有效地提高模型对未见说话者的泛化能力,相比于现有的唇读方法,LipFormer在多个数据集上都能产生更准确的唇读结果。此外,LipFormer还被用于生成逼真的说话人脸视频,它能够捕捉声音和嘴型之间的关系,并在不同的姿态下保持鲁棒性。通过预学习的面部代码库,LipFormer能够利用高质量的面部图像数据,简化说话人脸生成任务,并提高生成视频的真实感和对未见身份的泛化能力。