Key points are not available for this paper at this time.
تظهر نماذج توليد الصور المستندة إلى الانتشار مثل DALL-E 3 وStable Diffusion-XL قدرات ملحوظة في توليد الصور بتراكيب واقعية وفريدة. ومع ذلك، فإن هذه النماذج ليست قوية في التفكير بدقة حول التكوينات الفيزيائية والمكانية للأشياء، خاصة عند توجيهها بوصف غير تقليدي، وبالتالي خارج نطاق التوزيع، مثل "كرسي بخمسة أرجل". في هذه الورقة، نقترح وكيل لغة مع سلسلة من الأفكار ثلاثية الأبعاد (L3GO)، وهو نهج في وقت الاستدلال يمكنه التفكير في توليد شبكات ثلاثية الأبعاد قائمة على الأجزاء لأشياء غير تقليدية، والتي تكافح نماذج الانتشار المعتمدة على البيانات الحالية معها. بشكل أكثر تحديداً، نستخدم نماذج لغوية كبيرة كوكلاء لتكوين الكائن المطلوب من خلال التجربة والخطأ داخل بيئة المحاكاة ثلاثية الأبعاد. لتسهيل بحثنا، نقوم بتطوير معيار جديد، الكائنات غير التقليدية القابلة للتطبيق (UFO)، بالإضافة إلى SimpleBlenv، وهي بيئة تغليف مبنية على أعلى برنامج بليندر حيث يمكن لوكلاء اللغة بناء وتكوين الكتل البنائية الذرية من خلال استدعاءات API. تظهر تقييمات بشرية وآلية باستخدام GPT-4V أن نهجنا يتفوق على GPT-4 القياسي ووكلاء اللغة الآخرين (مثل ReAct وReflexion) في توليد الشبكات ثلاثية الأبعاد على ShapeNet. وعلاوة على ذلك، عند اختباره على معيار UFO الخاص بنا، يتفوق نهجنا على نماذج النص إلى الصورة ثنائية الأبعاد والنص إلى ثلاثي الأبعاد الحديثة استنادًا إلى التقييم البشري.
درس يامادا وآخرون (الأربعاء) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: