Die dynamische Ressourcenallokation in heterogenen drahtlosen Netzwerken (HetNets) ist für traditionelle Methoden bei wechselnden Benutzerlasten und Kanalkonditionen herausfordernd. Wir schlagen ein Deep Reinforcement Learning (DRL)-Rahmenwerk vor, das die Übertragungsleistung, Bandbreite und Zeitplanung gemeinsam optimiert, indem es einen mehrzieligen Belohnungsansatz zur Balance von Durchsatz, Energieeffizienz und Fairness verwendet. Anhand realer Basisstation-Koordinaten vergleichen wir Proximal Policy Optimisation (PPO) und Twin Delayed Deep Deterministic Policy Gradient (TD3) mit drei heuristischen Algorithmen in mehreren Netzwerkszenarien. Unsere Ergebnisse zeigen, dass DRL-Rahmenwerke besser abschneiden als heuristische Algorithmen bei der Optimierung der Ressourcenallokation in dynamischen Netzwerken. Diese Ergebnisse heben wichtige Abwägungen im DRL-Design für zukünftige HetNets hervor.
Giwa et al. (Mon,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: