Key points are not available for this paper at this time.
시각적 기초화는 자연어를 이미지에서 기초화(즉, 위치 지정)하는 작업으로, 본질적으로 복합적인 시각적 추론을 요구합니다. 그러나 기존 방법들은 언어의 복합적인 특성을 단일 문장 임베딩이나 주어-술어-목적어의 조잡한 구성으로 지나치게 단순화합니다. 본 논문에서는 자연어를 직관적이고 설명 가능하며 복합적인 방식으로 기초화할 것을 제안합니다. 특히, 우리는 NMTree라는 새로운 모듈형 네트워크를 개발하여 문장의 의존 구문 분석 트리를 따라 시각적 기초화를 정규화하며, 각 노드는 언어적 특징에 따라 시각적 주의를 계산하는 신경 모듈입니다. 기초화 점수는 필요에 따라 아래에서 위로 누적됩니다. NMTree는 복합적인 추론에서 시각적 기초화를 분리하여 후자가 원시적이고 일반화하기 쉬운 패턴에만 집중할 수 있도록 합니다. 구문 분석 오류의 영향을 줄이기 위해, 우리는 Gumbel-Softmax 근사법과 그 직통 기울기 추정기를 사용하여 모듈과 그 조립을 종단 간에 훈련하며, 모듈 조립의 이산적 특성을 고려합니다. 전반적으로 제안된 NMTree는 여러 벤치마크에서 최신 기술보다 일관되게 우수한 성능을 보입니다. 질적 결과는 기초화 점수 계산을 매우 세밀하게 설명합니다.
Liu et al. (Tue,)은 이 질문을 연구했습니다.