Key points are not available for this paper at this time.
Para uma colaboração eficaz entre humanos e robôs, é crucial que os robôs compreendam os pedidos dos usuários que percebem o espaço tridimensional e façam perguntas de seguimento razoáveis quando há ambiguidades. Enquanto compreendem as descrições de objetos nos pedidos dos usuários, os estudos existentes se concentraram nesse desafio para categorias de objetos limitadas que podem ser detectadas ou localizadas com os módulos de detecção e localização de objetos existentes. Além disso, eles se concentraram principalmente em compreender as descrições dos objetos usando imagens RGB planas, sem considerar a dimensão de profundidade. Por outro lado, na prática, é impossível limitar as categorias de objetos que podem ser encontradas durante a interação, e a percepção do espaço tridimensional que inclui informações de profundidade é fundamental na conclusão bem-sucedida de tarefas. Para entender objetos descritos e resolver ambiguidades na prática, pela primeira vez, sugerimos um método que aproveita a explicabilidade. Nosso método se concentra nas áreas ativas de uma cena RGB para encontrar os objetos descritos sem impor as restrições anteriores sobre categorias de objetos e instruções em linguagem natural. Melhoramos ainda mais nosso método para identificar os objetos descritos considerando a dimensão de profundidade. Avaliamos nosso método em imagens variadas do mundo real e observamos que as regiões sugeridas pelo nosso método podem ajudar a resolver ambiguidades. Quando comparamos nosso método com uma linha de base de estado da arte, mostramos que nosso método se destaca em cenas com objetos ambíguos que não podem ser reconhecidos pelos detectores de objetos existentes. Também mostramos que o uso de características de profundidade melhora significativamente o desempenho em cenas onde os dados de profundidade são críticos para desambiguar os objetos e em nosso conjunto de dados de avaliação que contém objetos que podem ser especificados com e sem a dimensão de profundidade.
Doğan et al. (Qua,) estudaram essa questão.