Key points are not available for this paper at this time.
본 연구에서는 잠재 변수 모델을 통해 다중 모달 신경 기계 번역(MMT)을 위한 시각적 특성과 텍스트 특성 간의 상호작용을 모델링할 것을 제안합니다. 이 잠재 변수는 이미지와 해당 이미지를 외국어로 설명하는 것의 다중 모달 확률적 임베딩으로 볼 수 있습니다. 이는 대상 언어 디코더에서 사용되며, 이미지 특성을 예측하는 데에도 사용됩니다. 중요한 것은, 우리의 모델 공식화가 훈련 중에 시각적 및 텍스트적 입력을 활용하지만 평가 시에는 이미지가 필요하지 않다는 점입니다. 우리는 우리의 잠재 변수 MMT 공식화가 강력한 기준선, 즉 다중 작업 학습 접근법(Elliott and Kadar, 2017) 및 조건부 변량 오토인코더 접근법(Toyama et al., 2016)보다 상당히 개선된다는 것을 보여줍니다. 마지막으로, (i) 이미지 특성을 예측하는 것 외에도 이를 조건으로 하는 것에 대한 개선, (ii) 입력과 잠재 변수 사이에 무시할 수 없는 상호 정보를 촉진하기 위해 KL 항에 제약을 부여하는 것, (iii) 추가적인 대상 언어 이미지 설명(즉, 합성 데이터)에 대해 훈련함으로써 개선이 이루어짐을 보여줍니다.
Calixto 외. (Mon,)는 이 질문을 연구했습니다.
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: