Los puntos clave no están disponibles para este artículo en este momento.
La estimación de pose humana 3D (HPE) en vehículos autónomos (AV) difiere de otros casos de uso en muchos factores, incluyendo la resolución 3D y el rango de datos, la ausencia de mapas de profundidad densos, los modos de falla para LiDAR, la ubicación relativa entre la cámara y LiDAR, y un alto nivel de precisión en la estimación. Los datos recolectados para otros casos de uso (como la realidad virtual, los juegos y la animación) pueden no ser utilizables para aplicaciones AV. Esto requiere la recolección y anotación de una gran cantidad de datos 3D para HPE en AV, lo que consume tiempo y es costoso. En este documento, proponemos uno de los primeros enfoques para aliviar este problema en el contexto de AV. Específicamente, proponemos un enfoque multimodal que utiliza etiquetas 2D en imágenes RGB como supervisión débil para realizar HPE 3D. La arquitectura multimodal propuesta incorpora entradas de LiDAR y cámara con una rama de segmentación auxiliar. En el Waymo Open Dataset 27, nuestro enfoque logra una mejora relativa de aproximadamente el 22% sobre la línea base de HPE 2D solo con cámara, y una mejora de aproximadamente el 6% sobre el modelo solo de LiDAR. Finalmente, estudios de ablación cuidadosos y análisis basados en partes ilustran las ventajas de cada una de nuestras contribuciones.
Zheng et al. (Wed,) estudiaron esta pregunta.
Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context: