March 18, 2024Open Access

Imitando o Sistema Visual Humano para Predição de Padrões de Olhar

Key Points

Key points are not available for this paper at this time.

Abstract

O padrão de olhar refere-se à trajetória das fixações oculares quando os humanos realizam raciocínio visual. A maioria dos métodos existentes foca principalmente na previsão de mapas de atenção estáticos, que representam a probabilidade de que cada pixel da imagem receba atenção dos humanos. No entanto, o comportamento do olhar humano é intencional e dinâmico, especialmente na busca por objetos específicos. Inspirado pelo mecanismo de movimento ocular do sistema visual humano, um método de aprendizado por reforço é introduzido para imitar o sistema visual humano e prever o padrão de olhar na busca por alvos. Este artigo também considera a visão periférica-fóvea e incorpora o comportamento de movimento ocular para melhorar a precisão da previsão do padrão de olhar. Além disso, o codificador de texto do Contrastive Language-Image Pretraining (CLIP) é empregado como a incorporação da tarefa para converter objetos-alvo em vetores. Comparado com os modelos de ponta (SOTA) no conjunto de dados COCO-Search18, nosso método proposto alcança um desempenho superior de forma abrangente na previsão de localizações e durações de fixações.

Imitando o Sistema Visual Humano para Predição de Padrões de Olhar

Key Points

Abstract

Cite This Study

Also Consider

Also Consider