为了解决上面MMoE模型的局限性,作者提出了灵活参数共享的概念,即我们不应把share layer部分作为整体的参数分享给每一个需要训练的目标,在share layer内部也需要互相共享参数,以提高表达,那么怎么做呢?作者设计了一款模型为:Sub-Network Routing(后续如无特殊标记,均以SNR代替),在share layer中的上下层进行剥离,用下层中的所有参数作为上层输入共享,此处作者设计了两种共享方式:transformation和average。
- https://zhuanlan.zhihu.com/p/150464424