Key points are not available for this paper at this time.
음식 인식은 음식 선택과 섭취에서 중요한 역할을 하며, 이는 인간의 건강과 웰빙에 필수적입니다. 따라서 이는 컴퓨터 비전 커뮤니티에 중요하며, 음식 탐지 및 분할, 교차 모달 레시피 검색 및 생성과 같은 많은 음식 지향 비전 및 다중 모달 작업을 지원할 수 있습니다. 불행히도, 우리는 출시된 대규모 데이터셋에 대한 일반적인 시각 인식에서 주목할 만한 발전을 목격했지만, 음식 분야에서는 주로 뒤쳐져 있습니다. 본 논문에서는 2,000개의 범주와 100만 개 이상의 이미지를 가진 가장 큰 음식 인식 데이터셋인 Food2K를 소개합니다. 기존의 음식 인식 데이터셋과 비교할 때, Food2K는 범주와 이미지 모두에서 한 차원 더 뛰어나며, 따라서 음식 시각 표현 학습을 위한 고급 모델 개발을 위한 새로운 도전적인 벤치마크를 설정합니다. 더욱이, 우리는 음식 인식을 위한 심층 점진적 지역 강화 네트워크를 제안하는데, 이는 주로 점진적 지역 특징 학습과 지역 특징 강화의 두 구성 요소로 구성됩니다. 전자는 개선된 점진적 훈련 방식으로 다양하고 보완적인 지역 특징을 학습하며, 후자는 자기 주의를 활용하여 다중 스케일의 풍부한 컨텍스트를 지역 특징에 통합하여 추가적인 지역 특징 강화를 수행합니다. Food2K에 대한 광범위한 실험은 우리가 제안한 방법의 효과를 입증합니다. 더 중요한 것은, 우리는 Food2K가 음식 이미지 인식, 음식 이미지 검색, 교차 모달 레시피 검색, 음식 탐지 및 분할을 포함한 다양한 작업에서 더 나은 일반화 능력을 검증했다는 것입니다. Food2K는 음식 관련 작업, 특히 신식 및 더 복잡한 작업(예: 음식의 영양 이해)을 위해 추가로 탐색될 수 있으며, Food2K에서 훈련된 모델은 더 많은 음식 관련 작업의 성능을 향상시키는 백본으로 기대될 수 있습니다. 우리는 또한 Food2K가 대규모 세밀한 시각 인식 벤치마크로서 기여하고 대규모 세밀한 시각 분석의 발전에 기여할 수 있기를 바랍니다.
Min et al. (수요일)이 이 질문을 연구했습니다.