Key points are not available for this paper at this time.
Apresentamos uma abordagem de navegação visual que utiliza informações de contexto para guiar um agente a encontrar e alcançar um objeto-alvo. Para aprender o contexto a partir dos objetos presentes na cena, transformamos informações visuais em uma representação intermediária chamada grade de contexto, que essencialmente representa quão semelhante semanticamente é o objeto na localização ao objeto-alvo. Como essa representação pode codificar o objeto-alvo e outros objetos juntos, ela nos permite guiar um agente de uma forma inspirada em humanos: o agente irá para o lugar provável ao ver os objetos de contexto ao redor no início, quando o alvo não está visível, e, assim que o objeto-alvo entrar em vista, ele alcançará o alvo rapidamente. Uma vez que a grade de contexto não contém diretamente valores de características visuais ou semânticas que mudam de acordo com a introdução de novos objetos, como novas instâncias do mesmo objeto com aparência diferente ou um objeto de uma classe ligeiramente diferente, nosso modelo de navegação generaliza bem para cenas/objetos não vistos. Resultados experimentais mostram que nossa abordagem supera abordagens anteriores na navegação em cenas não vistas, especialmente para cenas amplas. Também avaliamos o desempenho humano na tarefa de navegação dirigida por um alvo e comparamos com abordagens de navegação baseadas em aprendizado de máquina, incluindo este trabalho.
Druon et al. (Terç,) estudaram esta questão.