Key points are not available for this paper at this time.
Apresentamos o UViM, uma abordagem unificada capaz de modelar uma ampla gama de tarefas de visão computacional. Em contraste com modelos anteriores, o UViM tem a mesma forma funcional para todas as tarefas; não requer modificações específicas de tarefa que demandem extensa expertise humana. A abordagem envolve dois componentes: (I) um modelo base (feed-forward) que é treinado para prever diretamente saídas visuais brutas, guiado por um código discreto aprendido, e (II) um modelo de linguagem (autoregressivo) que é treinado para gerar o código orientador. Esses componentes se complementam: o modelo de linguagem é bem adequado para modelar dados estruturados interdependentes, enquanto o modelo base é eficiente em lidar com saídas de alta dimensão. Demonstramos a eficácia do UViM em três tarefas de visão desafiadoras e diversas: segmentação panóptica, previsão de profundidade e coloração de imagem, onde alcançamos resultados competitivos e próximos ao estado da arte. Nossos resultados experimentais sugerem que o UViM é um candidato promissor para uma abordagem de modelagem unificada em visão computacional.
Колесников et al. (Sex,) estudaram esta questão.