멀티미디어 콘텐츠는 오늘날 웹 정보의 주류를 이루고 있습니다. 멀티미디어 사용자-항목 상호작용의 본질은 1/0 이진 암시적 피드백(예: 사진 좋아요, 비디오 조회수, 음악 다운로드 등)으로, 이는 명시적 피드백(예: 제품 평가)보다 훨씬 낮은 비용으로 더 큰 규모에서 수집될 수 있습니다. 그러나 기존의 대부분 협업 필터링(CF) 시스템은 멀티미디어 추천을 위해 잘 설계되지 않았으며, 이는 사용자와 멀티미디어 콘텐츠 간의 상호작용에서의 암시성을 무시하기 때문입니다. 우리는 멀티미디어 추천에서 항목- 및 구성 요소 수준의 암시성이 존재하여 기본 사용자의 선호를 흐리게 한다고 주장합니다. 항목 수준의 암시성은 사용자 항목(예: 사진, 비디오, 음악 등)에 대한 선호가 알려지지 않은 경우를 의미하며, 구성 요소 수준의 암시성은 각 항목 내에서 사용자 선호가 서로 다른 구성 요소(예: 이미지 내 영역, 비디오의 프레임 등)에 대한 것이 알려지지 않은 경우를 의미합니다. 예를 들어, 비디오에 대한 '조회수'는 사용자가 비디오를 얼마나 좋아하는지(즉, 항목 수준) 및 비디오의 어떤 부분에 관심이 있는지(즉, 구성 요소 수준)에 대한 특정 정보를 제공하지 않습니다. 이 논문에서는 멀티미디어 추천에서의 도전적인 항목- 및 구성 요소 수준의 암시적 피드백을 해결하기 위해 CF에서 새로운 주목 메커니즘을 도입합니다. 이를 '주목할 만한 협업 필터링(ACF)'이라고 하며, 구체적으로 우리의 주목 모델은 두 개의 주목 모듈로 구성된 신경망입니다: 멀티미디어 항목의 정보성 구성 요소를 선택하는 것을 배우는 구성 요소 수준의 주목 모듈(예: 이미지/비디오에 대한 CNN과 같은 콘텐츠 특징 추출 네트워크에서 시작)과 항목 선호 점수를 학습하는 항목 수준의 주목 모듈입니다. ACF는 BPR 및 SVD++와 같은 암시적 피드백을 사용하는 고전적 CF 모델에 원활하게 통합될 수 있으며, SGD를 사용하여 효율적으로 훈련될 수 있습니다. Vine과 Pinterest라는 두 개의 실제 멀티미디어 웹 서비스에 대한 광범위한 실험을 통해, 우리는 ACF가 최신 CF 방법보다 상당히 우수하다는 것을 보여줍니다.
Chen et al. (Fri,)는 이 질문을 연구했습니다.