变压器模型显著改变了机器学习的许多领域,由于其结构和大量参数,使其能够捕捉数据中的复杂模式。在此基础上,出现了一种基于能量的变体,能量变压器(ET),作为一种强大的变体,在不牺牲性能的情况下实现了参数效率。在这项工作中,我们介绍了ET模型的创新演变:ET-KAN架构。通过将Kolmogorov-Arnold网络(KAN)集成到能量函数中,我们的模型将ET作为结构设计进行了泛化,从而解锁了增强的学习能力。我们通过图像重建任务展示了这一新架构的潜力,其中在覆盖超过一半图像时达到的损失为0.08,表现出与标准ET架构相当或更高的结果,同时使用的参数更少。由此构建的模型为深入研究KAN与基于能量模型之间的相互作用铺平了道路,以应对传统变压器的一些关键限制。
Marullo等人(周三)研究了这个问题。