February 14, 2024Open Access

L3GO: وكلاء اللغة مع سلسلة من الأفكار ثلاثية الأبعاد لتوليد أشياء غير تقليدية

Key Points

Key points are not available for this paper at this time.

Abstract

تظهر نماذج توليد الصور المستندة إلى الانتشار مثل DALL-E 3 وStable Diffusion-XL قدرات ملحوظة في توليد الصور بتراكيب واقعية وفريدة. ومع ذلك، فإن هذه النماذج ليست قوية في التفكير بدقة حول التكوينات الفيزيائية والمكانية للأشياء، خاصة عند توجيهها بوصف غير تقليدي، وبالتالي خارج نطاق التوزيع، مثل "كرسي بخمسة أرجل". في هذه الورقة، نقترح وكيل لغة مع سلسلة من الأفكار ثلاثية الأبعاد (L3GO)، وهو نهج في وقت الاستدلال يمكنه التفكير في توليد شبكات ثلاثية الأبعاد قائمة على الأجزاء لأشياء غير تقليدية، والتي تكافح نماذج الانتشار المعتمدة على البيانات الحالية معها. بشكل أكثر تحديداً، نستخدم نماذج لغوية كبيرة كوكلاء لتكوين الكائن المطلوب من خلال التجربة والخطأ داخل بيئة المحاكاة ثلاثية الأبعاد. لتسهيل بحثنا، نقوم بتطوير معيار جديد، الكائنات غير التقليدية القابلة للتطبيق (UFO)، بالإضافة إلى SimpleBlenv، وهي بيئة تغليف مبنية على أعلى برنامج بليندر حيث يمكن لوكلاء اللغة بناء وتكوين الكتل البنائية الذرية من خلال استدعاءات API. تظهر تقييمات بشرية وآلية باستخدام GPT-4V أن نهجنا يتفوق على GPT-4 القياسي ووكلاء اللغة الآخرين (مثل ReAct وReflexion) في توليد الشبكات ثلاثية الأبعاد على ShapeNet. وعلاوة على ذلك، عند اختباره على معيار UFO الخاص بنا، يتفوق نهجنا على نماذج النص إلى الصورة ثنائية الأبعاد والنص إلى ثلاثي الأبعاد الحديثة استنادًا إلى التقييم البشري.

L3GO: وكلاء اللغة مع سلسلة من الأفكار ثلاثية الأبعاد لتوليد أشياء غير تقليدية

Key Points

Abstract

Cite This Study

Also Consider

Also Consider