مع تقدم الشبكات الخلوية من الجيل السادس (6G)، أصبح معالجة الإشارة التكيفية في الوقت الحقيقي أمرًا حاسمًا للحركة والقيود متعددة الأهداف. الطرق التقليدية لا تلبي الاحتياجات في بيئات الحافة الديناميكية. نقترح نموذج DRL مع وكيلين مزدوجين، ونماذج وكيل-ناقد، وخصائص تجميعية، وتوقعات للحركة لمهام مثل التعديل وتخصيص الطاقة. يتعلم هذا النموذج في الوقت الحقيقي، مما يقلل زمن الكمون الكلي حتى 27% مقارنة بأساليب RL التقليدية، و20% مقارنة بأداء A3C، ويحسن كفاءة الطاقة بنسبة 13-16% مقارنة بالتكوينات الثابتة الوزن والتي لا تأخذ الحركة بعين الاعتبار، ويحافظ على معدلات خطأ بت منخفضة في المحاكاة الفيروسية الجوية. وهذا يمكّن التطبيقات في النقل والطائرات المسيرة وإنترنت الأشياء.
درس رحmati وزملاؤه (الجمعة) هذا السؤال.