Key points are not available for this paper at this time.
指代表达理解旨在定位由自然语言表达描述的对象实例。目前的指代表达方法已经取得了良好的性能。然而,没有一种方法能够在不降低准确度的情况下实现实时推理。这些方法推理速度相对较慢的原因是它们人为地将指代表达理解分为两个顺序阶段,包括提案生成和提案排序。这并不完全符合人类认知的习惯。为此,我们提出了一种新颖的实时跨模态相关性过滤方法(RCCF)。RCCF将指代表达理解重新表述为一个相关性过滤过程。表达首先从语言领域映射到视觉领域,然后作为模板(核)在图像特征图上进行相关性过滤。相关性热图中的峰值表示目标框的中心点。此外,RCCF还回归了二维对象大小和二维偏移量。中心点坐标、对象大小和中心点偏移量共同形成目标边界框。我们的方法以每秒40帧的速度运行,同时在RefClef、RefCOCO、RefCOCO+和RefCOCOg基准中达到领先性能。在具有挑战性的RefClef数据集中,我们的方法几乎将最先进的性能翻倍(从34.70 %增加到63.79 %)。我们希望这项工作能引起对新跨模态相关性过滤框架以及用于指代表达理解的一阶段框架更多的关注和研究。」},{
Liao et al. (Mon,) studied this question.
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: