Die kooperative adaptive Geschwindigkeitsregelung (CACC) kann die Verkehrseffizienz und Sicherheit eines Konvois auf der Straße verbessern. Die meisten traditionellen CACC-Methoden müssen auf genaue mathematische Modelle angewiesen sein, während diejenigen, die auf tiefem Verstärkungslernen (DRL) basieren, unter langen Trainingszeiten und schlechter Konvergenz leiden. In diesem Kontext schlägt diese Studie einen CACC-Rahmen vor, der auf Imitationslernen (IL) und DRL basiert, mit dem Ziel, die Effizienz des Nachfahrens und die Stabilität langer Konvois von vernetzten autonomen Fahrzeugen (CAVs) in einer Mischverkehrsituation zu verbessern. Diese Methode kombiniert die Optimierungsfähigkeit der modellprädiktiven Regelung (MPC) und die adaptiven Lernmerkmale eines Soft Actor-Critic (SAC) Algorithmus. MPC wird als Experte demonstriert, und das Vortraining der Politiken wird durch Imitationslernen erlangt. Das Vortrainingsnetzwerk wird dann in das Actor-Netzwerk des SAC eingeführt, was die Trainingseffizienz im SAC-Algorithmus erhöht. Numerische Simulationsergebnisse zeigen, dass der verbesserte DRL-Algorithmus eine bessere Konvergenz im Trainingsprozess aufweist. Im Vergleich zum Basismodell weist der vorgeschlagene Rahmen höhere Belohnungen, einen niedrigeren Nachverfolgungsfehler und eine bessere Stabilität des Konvois in der Bewertung auf. Darüber hinaus kann das vorgeschlagene Modell die Aufgabe des Nachfahrens effizient unter verschiedenen Penetrationsraten abschließen.
Wang et al. (Mon,) haben diese Frage untersucht.