Los puntos clave no están disponibles para este artículo en este momento.
Los avances recientes en los modelos de seguimiento de instrucciones han hecho que las interacciones de los usuarios con los modelos sean más amigables y eficientes, ampliando su aplicabilidad. En el diseño gráfico, los usuarios no profesionales a menudo tienen dificultades para crear diseños visualmente atractivos debido a habilidades y recursos limitados. En este trabajo, introducimos un nuevo marco multimodal de seguimiento de instrucciones para la planificación de diseños, permitiendo a los usuarios organizar fácilmente elementos visuales en diseños personalizados especificando el tamaño del lienzo y el propósito del diseño, como portadas de libros, carteles, folletos o menús. Desarrollamos tres tareas de razonamiento de diseño para entrenar al modelo en la comprensión y ejecución de instrucciones de diseño. Los experimentos en dos benchmarks muestran que nuestro método no solo simplifica el proceso de diseño para no profesionales, sino que también supera el rendimiento de los modelos GPT-4V de pocos disparos, con un mIoU superior en un 12% en Crello. Este progreso destaca el potencial de los modelos multimodales de seguimiento de instrucciones para automatizar y simplificar el proceso de diseño, proporcionando una solución accesible para una amplia gama de tareas de diseño en documentos ricos en visuales.
Zhu et al. (Tue,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: