DurIAN模型,全称为Duration Informed Attention Network,是一种用于语音合成的自回归模型。以下是关于DurIAN模型的一些关键信息:

  1. 模型特点

    • DurIAN模型通过显式的时长预测模块来代替传统的注意力机制,以解决序列到序列模型在语音合成中的稳定性问题。
    • 该模型利用音素级的文本序列作为输入,预测每个音素对应的语音单元所持续的时间,从而指导语音特征的生成过程。
    • DurIAN模型能够生成高度自然且鲁棒的语音,有效避免了单词跳过和重复产生的语音中的错误。
  2. 应用优势

    • DurIAN模型在语音合成错误率上表现出色,将错误率从Tacotron2模型的2%降低到了0%,显著提升了语音合成系统的稳定性。
    • 除了语音合成,DurIAN模型还被扩展应用到其他生成任务,如唱歌、多模态合成和细粒度样式控制的语音合成。
  3. 技术细节

    • DurIAN模型使用对齐模型来预测音素级的时长信息,并在扩帧过程中加入位置信息编码进行建模,以实现不等长序列映射。
    • 为了提高语音生成效率,DurIAN模型还提出了一种基于子带的语音合成声码器,有效提升了语音生成的实时率。
  4. 性能表现

    • 在多波段WaveRNN模型中,DurIAN模型通过并行生成策略,将计算复杂度从9.8 GFLOPS降低到3.6 GFLOPS,同时在单个CPU内核上生成的音频比实时速度快6倍。
    • 通过主观听力测试获得的平均意见得分(MOS)显示,DurIAN模型生成的语音质量与当前最先进的端到端系统相媲美。

DurIAN模型以其在语音合成中的高自然度、鲁棒性和效率,成为了一个重要的研究和应用方向。