目的伪装目标检测(camouflaged object detection, COD)旨在从复杂场景中识别与背景高度融合的隐藏目标,在农业、医学等领域具有重要研究价值与应用潜力。针对现有方法受限于卷积神经网络(convolutional neural networks, CNN)有效感受野不足、Transformer计算复杂度高,以及仅依赖RGB图像、忽视深度几何先验等问题,开展本文研究。方法提出一种状态空间模型引导多模态融合的RGB-D伪装目标检测方法。利用Depth Anything V2生成高质量伪深度图,输入参数共享编码器提取多模态金字塔特征;设计基于Mamba的多模态状态空间融合模块(multi-modality mamba fusion module, M3FM),实现RGB 与深度特征双向互惠融合;构建基于多核非对称卷积的双向上下文混合卷积模块(dual-directional context mixture convolution, DCM-Conv)与多尺度解码器,在提取多感受野特征的同时控制参数量与计算开销。结果在CAMO、COD10K、NC4K 3个伪装目标检测基准数据集进行实验,与11种代表性方法进行定量和定性对比。在平均绝对误差(mean absolute error, MAE)指标上,本文方法相较于排名第2的方法,在3个数据集上分别降低21.3%、17.4%和12.5%;同时在结构度量(structure measure, Sm)、增强对齐度量(enhanced alignment measure, Em)、加权F度量(weighted F-measure, wFm)上均取得最优值。模型参数量仅58.5M,计算复杂度(floating point operations, FLOPs)仅47.6G,精度与效率平衡优异。可视化结果表明,本文方法分割更准确、边界更清晰、细节保留更完整、背景误检更少。结论提出状态空间模型引导多模态融合的RGB-D伪装目标检测方法MambaCOD。通过多模态状态空间融合模块M3FM有效实现RGB与深度特征双向互惠融合,利用Depth Anything V2提供高质量几何先验,并借助DCM-Conv模块增强多尺度上下文特征,可精准定位伪装目标并提升边界与细节清晰度。
Rongmei et al. (Thu,) studied this question.