Key points are not available for this paper at this time.
食品识别在食品选择和摄入中扮演着重要角色,这对人类健康和福祉至关重要。因此,它对计算机视觉社区非常重要,并且可以进一步支持许多与食品相关的视觉和多模态任务,例如食品检测和分割、跨模态食谱检索和生成。不幸的是,尽管我们已经在发布的大规模数据集上目睹了通用视觉识别的显著进展,但在食品领域却仍然大幅滞后。本文介绍了Food2K,这是最大的食品识别数据集,包含2000个类别和超过100万张图片。与现有的食品识别数据集相比,Food2K在类别和图像数量上都提高了一个数量级,因此建立了一个新的具有挑战性的基准,以开发先进的食品视觉表示学习模型。此外,我们提出了一种深度渐进区域增强网络用于食品识别,主要由两个组件组成,即渐进局部特征学习和区域特征增强。前者采用改进的渐进训练来学习多样且互补的局部特征,而后者利用自注意力将更丰富的上下文与多尺度信息融入局部特征中,以进一步增强局部特征。对Food2K的广泛实验表明了我们提出方法的有效性。更重要的是,我们已经验证了Food2K在各种任务中的更好泛化能力,包括食品图像识别、食品图像检索、跨模态食谱检索、食品检测和分割。Food2K可以进一步探索,以便惠及更多与食品相关的任务,包括新兴和更复杂的任务(例如,食品的营养理解),而在Food2K上训练的模型可以被期望作为支撑,提高更多与食品相关任务的性能。我们还希望Food2K能够作为大规模细粒度视觉识别的基准,并为大规模细粒度视觉分析的发展做出贡献.
Min等人(周三)研究了这个问题。