What type of study is this?

September 10, 2025Open Access

用于仿生可穿戴设备的端到端注意力增强变压器图像标题生成

Key Points

提出的模型通过有效表示视觉特征和利用上下文来提高图像标题生成的准确性。
在MSCOCO数据集上实现CIDEr指标2.1个百分点的提升证明了其有效性。
多层次视觉特征的结合将交叉注意力和自注意力机制结合在一起，从而增强了编码。
该模型在可穿戴设备中表现出实时效率，显著优于最先进的图像标题生成方法。

Abstract

现有基于变压器的图像标题生成方法面临两个主要限制：首先，它们在编码阶段难以充分表示来自多个区域的视觉特征，其次，在推理阶段解码器未能有效利用未来的语义信息。为了应对这些挑战，提出了一种增强注意力的图像标题生成模型。在编码阶段，通过结合交叉注意力和自注意力机制，整合多层次的视觉特征，充分利用网格和区域特征。此外，引入了一种新型的密集全局自注意力模块，以最低的计算成本通过充分利用上下文信息和图像的细粒度细节来增强模型性能。该模型特别适合用于仿生可穿戴设备，在这些设备中，实时视觉辅助在提升用户体验方面起着至关重要的作用。在解码阶段，设计了一种具有自适应遮掩模块的双向解码结构，以动态调整对过去和未来语义信息的关注，使模型能够有效结合历史和未来的上下文，从而生成更准确和相关的描述。在MSCOCO数据集上的实验结果表明，该模型超越了基线，在CIDEr指标上实现了2.1个百分点的提升。在可穿戴平台上的全面硬件评估显示出实时效率，内存占用极小，在边缘部署场景中显著优于最先进的模型。

用于仿生可穿戴设备的端到端注意力增强变压器图像标题生成

Key Points

Abstract

Cite This Study