Los puntos clave no están disponibles para este artículo en este momento.
Los modelos generativos actuales basados en difusión o flujo para formas 3D se dividen en dos: destilar modelos de difusión de imágenes 2D preentrenados y entrenar directamente en formas 3D. Al entrenar modelos de difusión o flujo en formas 3D, una decisión de diseño crucial es la representación de la forma. Una representación efectiva de la forma debe adherirse a tres principios de diseño: debe permitir una conversión eficiente de grandes conjuntos de datos 3D a la forma de representación; debe proporcionar un buen equilibrio entre el poder de aproximación y el número de parámetros; y debe tener una forma tensorial simple que sea compatible con arquitecturas neuronales poderosas existentes. Mientras que las representaciones estándar de formas 3D, como las cuadrículas volumétricas y las nubes de puntos, no se adhieren a todos estos principios simultáneamente, defendemos en este artículo una nueva representación que sí lo hace. Introducimos Mosaic-SDF (M-SDF): una representación de forma 3D simple que aproxima la Función de Distancia Firmada (SDF) de una forma dada utilizando un conjunto de cuadrículas locales distribuidas cerca del límite de la forma. La representación M-SDF es rápida de calcular para cada forma individualmente, lo que la hace fácilmente paralelizable; es eficiente en parámetros ya que solo cubre el espacio alrededor del límite de la forma; y tiene una forma de matriz simple, compatible con arquitecturas basadas en Transformer. Demostramos la eficacia de la representación M-SDF utilizándola para entrenar un modelo de flujo generativo 3D, incluyendo generación condicionada por clase con el conjunto de datos ShapeNetCore-V2 (3D Warehouse), y generación de texto a 3D utilizando un conjunto de datos de aproximadamente 600k pares de subtítulos-formas.
Yariv et al. (Sun,) estudiaron esta cuestión.