Los puntos clave no están disponibles para este artículo en este momento.
La generación de movimiento humano impulsada por texto es una tarea emergente en animación y diseño de robots humanoides. Los algoritmos existentes generan directamente la secuencia completa, lo que resulta computacionalmente costoso y propenso a errores, ya que no presta especial atención a las poses clave, un proceso que ha sido la piedra angular de la animación durante décadas. Proponemos KeyMotion, que genera secuencias de movimiento humano plausibles correspondientes al texto de entrada al crear primero fotogramas clave, seguidos de un rellenado. Usamos un Autoencoder Variacional (VAE) con regularización de Kullback-Leibler para proyectar los fotogramas clave en un espacio latente y reducir la dimensionalidad, acelerando así el proceso de difusión subsiguiente. Para la difusión inversa, proponemos un nuevo Transformer Paralelo Skip que realiza atención cruzada modal entre los latentes de fotogramas clave y la condición del texto. Para completar la secuencia de movimiento, proponemos un Transformer guiado por texto diseñado para realizar el rellenado de movimiento, asegurando la preservación tanto de la fidelidad como de la adherencia a las limitaciones físicas del movimiento humano. Los experimentos muestran que nuestro método logra resultados de vanguardia en el conjunto de datos HumanML3D superando a otros en todas las métricas de R-precision y Distancia Multimodal. KeyMotion también logra un rendimiento competitivo en el conjunto de datos KIT, alcanzando los mejores resultados en métricas de Top3 R-precision, FID y Diversidad.
Geng et al. (Fri,) estudiaron esta cuestión.