Key points are not available for this paper at this time.
O padrão de olhar refere-se à trajetória das fixações oculares quando os humanos realizam raciocínio visual. A maioria dos métodos existentes foca principalmente na previsão de mapas de atenção estáticos, que representam a probabilidade de que cada pixel da imagem receba atenção dos humanos. No entanto, o comportamento do olhar humano é intencional e dinâmico, especialmente na busca por objetos específicos. Inspirado pelo mecanismo de movimento ocular do sistema visual humano, um método de aprendizado por reforço é introduzido para imitar o sistema visual humano e prever o padrão de olhar na busca por alvos. Este artigo também considera a visão periférica-fóvea e incorpora o comportamento de movimento ocular para melhorar a precisão da previsão do padrão de olhar. Além disso, o codificador de texto do Contrastive Language-Image Pretraining (CLIP) é empregado como a incorporação da tarefa para converter objetos-alvo em vetores. Comparado com os modelos de ponta (SOTA) no conjunto de dados COCO-Search18, nosso método proposto alcança um desempenho superior de forma abrangente na previsão de localizações e durações de fixações.
Li et al. (Mon,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: