April 5, 2024

تسميات الصور: تحليل نماذج CNN-LSTM و Vision-GPT

Key Points

Key points are not available for this paper at this time.

Abstract

تعد تسميات الصور، التي توجد عند نقطة تقاطع رؤية الكمبيوتر ومعالجة اللغة الطبيعية، أساسية لتعزيز فهم الصور، مما يسمح بتطبيقات مثل اكتشاف المحتوى، والمساعدات البصرية للمكفوفين، وأكثر من ذلك. لا يزال البحث عن نماذج تسميات الصور الأكثر دقة وموثوقية هدفاً بحثياً مهماً مع تطور التكنولوجيا بسرعة. تتم مقارنة تقنيتي تسميات الصور البارزتين المستخدمتين في هذه الدراسة، تسميات الصور باستخدام LSTM+CNN و تسميات الصور باستخدام VisionGPT2، بشكل شامل. نقوم بفحص الآليات الداخلية لهذه النماذج، وتقييم فعاليتها، وتقديم رؤى حول ميزاتها وعيوبها لسيناريوهات التطبيقات المتنوعة. يتم دمج الشبكات العصبية الالتفافية (CNNs) لاستخراج الميزات البصرية وشبكات الذاكرة قصيرة وطويلة الأمد (LSTM) لإنتاج اللغة المتسلسلة في نموذج LSTM+CNN، وهي منهجية مثبتة. لقد أثبتت كفاءتها في إنشاء أوصاف ثاقبة لمجموعة متنوعة من الصور. من ناحية أخرى، يستخدم VisionGPT2، وهو امتداد لنموذج GPT-2، المحولات ونماذج اللغة المدربة مسبقاً لتوفير نتائج متطورة في مجموعة متنوعة من تطبيقات معالجة اللغة الطبيعية. نحن نحلل جدوى كل تقنية من خلال أخذ عناصر مثل تعقيد النموذج، واحتياجات بيانات التدريب، وسهولة النشر بعين الاعتبار. هذه المقارنة الشاملة تنير الأكاديميين، والمبرمجين، والشركات حول الحل الأمثل لتسميات الصور لاحتياجاتهم الخاصة، مما يُعزز التطور في هذا المجال وستخداماته المتعددة.

اسأل الذكاء الاصطناعي

Bookmark