Key points are not available for this paper at this time.
Zusammenfassung Die stark gekoppelten, unteraktuatorischen und nichtlinearen Eigenschaften von Quadrotoren erschweren es, den Bedarf an effizienter und stabiler Steuerungsleistung in unbekannten dynamischen Umgebungen durch das Modellieren und Entwerfen von Steuerungen zu erfüllen. Verstärkendes Lernen ermöglicht das Lernen auf Basis des Modells des gesteuerten Objekts, indem es die Steuerungsstrategie mit Daten aktualisiert und optimiert, die aus Interaktionen mit der Umgebung generiert werden, wodurch eine neue Lösung für dieses Problem bereitgestellt wird. Es ist jedoch oft herausfordernd, komplexe Ziele an Quadrotoren zu übertragen, da die Gestaltung von Belohnungsfunktionen erforderlich ist, die genügend Informationen liefern müssen. Nachahmungslernen kann Agenten interaktiv unterrichten, indem es Vorwissen erlernt, sieht sich jedoch auch Problemen gegenüber, wie der Schwierigkeit, Vorwissen zu erwerben. In dieser Arbeit ist unser Ziel, die Gestaltung von Belohnungsfunktionen zu umgehen und die Generalisierbarkeit von Quadrotoren bei verschiedenen Aufgaben zu verbessern. Konkret bewerten wir die von Quadrotoren generierten Trajektorien, lernen das Belohnungsmodell basierend auf Präferenzen zwischen verschiedenen Trajektorien und verwenden es, um die Quadrotoren zu trainieren. Wir können zeigen, dass die Verwendung von Belohnungsmodellen, die entsprechend den Trajektorienpräferenzen angepasst sind, und die direkte Definition von Belohnungsfunktionen konsistente Ergebnisse liefert, wobei sowohl in den Aufgaben „Geschwindigkeitskontrolle“ als auch „Schwebekontrolle“ zufriedenstellende Lernraten und Leistungen aufrechterhalten werden.
Shen et al. (Donnerstag) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: