现有基于变压器的图像标题生成方法面临两个主要限制:首先,它们在编码阶段难以充分表示来自多个区域的视觉特征,其次,在推理阶段解码器未能有效利用未来的语义信息。为了应对这些挑战,提出了一种增强注意力的图像标题生成模型。在编码阶段,通过结合交叉注意力和自注意力机制,整合多层次的视觉特征,充分利用网格和区域特征。此外,引入了一种新型的密集全局自注意力模块,以最低的计算成本通过充分利用上下文信息和图像的细粒度细节来增强模型性能。该模型特别适合用于仿生可穿戴设备,在这些设备中,实时视觉辅助在提升用户体验方面起着至关重要的作用。在解码阶段,设计了一种具有自适应遮掩模块的双向解码结构,以动态调整对过去和未来语义信息的关注,使模型能够有效结合历史和未来的上下文,从而生成更准确和相关的描述。在MSCOCO数据集上的实验结果表明,该模型超越了基线,在CIDEr指标上实现了2.1个百分点的提升。在可穿戴平台上的全面硬件评估显示出实时效率,内存占用极小,在边缘部署场景中显著优于最先进的模型。
Yin等人(Sun,)研究了这个问题。