June 1, 2021

Combinando Guía Semántica y Aprendizaje Reforzado Profundo Para Generar Pinturas a Nivel Humano

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La generación de imágenes no fotorealistas basadas en pinceladas es un problema importante en la comunidad de visión por computadora. Como un esfuerzo en esta dirección, se han centrado investigaciones recientes sustanciales en enseñar a las máquinas "cómo pintar", de manera similar a un pintor humano. Sin embargo, la aplicabilidad de los métodos anteriores ha estado limitada a conjuntos de datos con poca variación en posición, escala y saliencia del objeto en primer plano. Como consecuencia, encontramos que estos métodos tienen dificultades para abarcar la granularidad y diversidad que poseen las imágenes del mundo real. Con este fin, proponemos un pipeline de Guía Semántica con 1) un procedimiento de pintura de dos niveles para aprender la distinción entre pinceladas de primer plano y fondo durante el entrenamiento. 2) También introducimos invarianza a la posición y escala del objeto en primer plano a través de un modelo de alineación neuronal, que combina localización de objetos y redes transformadoras espaciales de manera end-to-end, para hacer zoom en una instancia semántica particular. 3) Las características distintivas del objeto en foco se amplifican maximizando una nueva recompensa de enfoque basada en retropropagación guiada. El agente propuesto no requiere ninguna supervisión sobre datos de pinceladas humanas y maneja con éxito variaciones en los atributos del objeto en primer plano, produciendo así lienzos de mucho mayor calidad para los conjuntos de datos CUB-200 Birds y Stanford Cars-196. Finalmente, demostramos la eficacia adicional de nuestro método en conjuntos de datos complejos con múltiples instancias de objetos en primer plano evaluando una extensión de nuestro método en el desafiante conjunto de datos Virtual-KITTI 2. El código fuente y los modelos están disponibles en https://github.com/1jsingh/semantic-guidance.

Me gusta

Guardar