Los puntos clave no están disponibles para este artículo en este momento.
Recientemente, se ha llevado a cabo una cantidad significativa de investigaciones sobre la reconstrucción 3D de manos para utilizar diversas formas de interacción humano-computadora. Sin embargo, la reconstrucción 3D de manos en el mundo real es un desafío debido a la falta extrema de conjuntos de datos 3D de manos en el entorno natural. Especialmente cuando las manos están en posturas complejas, como las manos que interactúan, problemas como la similitud de apariencia, la oclusión de la misma mano y la ambigüedad de profundidad lo hacen más difícil. Para superar estos problemas, proponemos AttentionHand, un método novedoso para la generación controlable de imágenes de manos a partir de texto. Dado que AttentionHand puede generar diversas y numerosas imágenes de manos en el mundo real alineadas con las etiquetas 3D de manos, podemos adquirir un nuevo conjunto de datos 3D de manos y aliviar la brecha de dominio entre escenas interiores y exteriores. Nuestro método necesita cuatro modalidades de fácil uso (es decir, una imagen RGB, una imagen de malla de mano de la etiqueta 3D, una caja delimitadora y un aviso de texto). Estas modalidades se incrustan en el espacio latente a través de la fase de codificación. Luego, a través de la etapa de atención al texto, se prestan atención a los tokens relacionados con las manos del aviso de texto dado para resaltar las regiones relacionadas con las manos en la incrustación latente. Después de que la incrustación resaltada se alimenta a la etapa de atención visual, las regiones relacionadas con las manos en la incrustación son atendidas condicionando imágenes de malla de mano globales y locales con la tubería basada en difusión. En la fase de decodificación, la característica final se decodifica en nuevas imágenes de manos, que están bien alineadas con la imagen de malla de mano y el aviso de texto dados. Como resultado, AttentionHand alcanzó el estado del arte entre los modelos de generación de imágenes de manos a partir de texto, y el rendimiento de la reconstrucción de malla de mano 3D mejoró al entrenar adicionalmente con imágenes de manos generadas por AttentionHand.
Park et al. (Thu,) estudiaron esta pregunta.