Key points are not available for this paper at this time.
نقدم نموذج ذاكرة لتحليل وتحسين أداء الخوارزميات العلمية على وحدات المعالجة الرسومية (GPUs). يعتمد نموذج الذاكرة لدينا على أجهزة تكسية، التي تستخدم تمثيل مصفوفة قائم على الكتل ثنائية الأبعاد لأداء العمليات الأساسية. ندمج العديد من خصائص هياكل GPU بما في ذلك أحجام الكاش الصغيرة، والتمثيلات الكتلية ثنائية الأبعاد، ونستخدم نموذج 3C لتحليل حالات فقدان الكاش. علاوة على ذلك، نقدم تقنيات لتحسين أداء الحلقات المتداخلة على وحدات المعالجة الرسومية. لإظهار فعالية نموذجنا، نبرز أدائه على ثلاثة تطبيقات علمية كثيفة الذاكرة - الفرز، التحويل السريع لفورييه وضرب المصفوفات الكثيفة. في الممارسة العملية، تستطيع خوارزمياتنا الفعالة من حيث الكاش لهذه التطبيقات تحقيق عرض نطاق ذاكرة يتراوح بين 30-50 جيجابايت/ثانية على وحدة معالجة الرسوميات NVIDIA 7900 GTX. نقوم أيضًا بمقارنة نتائجنا مع تطبيقات سابقة تعتمد على GPU وCPU على المعالجات عالية الأداء. في الممارسة العملية، نستطيع تحقيق تحسين في الأداء يتراوح بين 2-5 أضعاف.
دراسة غوفينداراجو وزملائه (Sun) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: