目前主流的基于卷积神经网络的边缘检测方法,在感受野范围和细粒度边缘感知方面存在局限,随着视觉 Transformer 的发展,其全局建模能力和灵活的信息交互机制为边缘检测任务带来了新的可能。为了解决这一问题,本文提出了一种结合视觉Transformer和多级聚合金字塔与多尺度注意力聚合模块的编码器-解码器模型 TFEdge,用于高精度边缘检测。该模型引入 Dilated Neighborhood Attention Transformer 作为主干网络,通过多阶段层叠设计提取图像全局上下文信息与局部边缘线索。同时,设计了多级聚合特征金字塔聚合各阶段深浅层特征,赋予浅层特征更丰富的语义特征,以抑制图像噪声和提升对不明显边界的检测能力。最后提出了基于注意力机制的多尺度注意力聚合模块,通过聚合特征图像的跨尺度空间与通道注意力信息,进一步强化特征表述。实验在BSDS500和NYUDv2数据集上进行评估,TFEdge在BSDS500上的ODS和OIS F-score 分别达到0.857和0.874,在NYUDv2上分别为0.788和0.801。与多种现有方法相比,TFEdge 在定量与定性结果上均表现出优越的边缘检测性能。
LIN et al. (Wed,) studied this question.