Key points are not available for this paper at this time.
变换器是近期机器翻译评估中的最先进模型。两条研究方向有望改进此类模型:第一条使用广泛的网络(即变换器大模型)并已成为变换器系统发展的事实标准,另一条则使用更深的语言表示,但面临学习深度网络所带来的困难。在这里,我们继续后者的研究路径。我们声称,一个真正深度的变换器模型可以通过1)适当使用层归一化和2)以新颖的方式将前面层的组合传递给下一个层,从而超越变换器大模型。在WMT'16 英语-德语、NIST OpenMT'12 中文-英语以及更大的 WMT'18 中文-英语任务中,我们的深度系统(30/25层编码器)比浅层变换器大模型/基础线(6层编码器)提高了0.4-2.4 BLEU分数。作为另一个好处,该深度模型的体积比变换器大模型小1.6倍,同时训练速度快3倍。
王等人(周三)研究了这个问题。