Key points are not available for this paper at this time.
في هذا الاستطلاع الشامل، نستكشف عالم رموز النصوص لنماذج التحويل من النص إلى الصورة، مع التركيز على المبادئ والتحديات والفرص المرتبطة بهذه الرموز. نستعرض أحدث النماذج، بما في ذلك BERT وT5-XXL وCLIP، التي أحدثت ثورة في الطريقة التي نتعامل بها مع فهم اللغة والتفاعلات متعددة الوسائط. تمكن هذه النماذج، بفضل هياكلها وتقنيات تدريبها الفريدة، قدرات ملحوظة في توليد الصور من الوصف النصي. ومع ذلك، فهي تواجه أيضًا قيودًا وتحديات، مثل التعقيد الحسابي وندرة البيانات. نناقش هذه القضايا ونبرز الفرص المحتملة للبحث المستقبلي. من خلال تقديم لمحة شاملة، يسعى هذا الاستطلاع للمساهمة في التطوير المستمر لنماذج التحويل من النص إلى الصورة، مما يتيح توليد صور أكثر دقة وكفاءة من المدخلات النصية.
شون فانغ (الخميس) درس هذا السؤال.