March 3, 2026Open Access

Erlernen der Wertesysteme von Agenten mit präferenzbasiertem und inversen Verstärkungslernen

Key Points

Automatisiertes Lernen von Wertesystemen verbessert die ethische Entscheidungsfindung in KI-Agenten und ermöglicht eine bessere Ausrichtung auf menschliche Werte.
Das vorgeschlagene Framework nutzt präferenzbasiertes und inverses Verstärkungslernen zur Ableitung von ethischen Grundfunktionen.
Sequentielle Entscheidungsfindungsdomänen werden durch maßgeschneiderte Algorithmen bewertet, um individuelle Wertesysteme effektiv zu lernen.
Dieser Ansatz demonstriert Potenzial für verbesserte Interaktionen von KI-Agenten, jedoch erforden breitere Anwendungen weitere Untersuchungen.

Abstract

Vereinbarungstechnologien beziehen sich auf offene Computersysteme, in denen autonome Softwareagenten miteinander interagieren, typischerweise im Auftrag von Menschen, um zu gegenseitig akzeptablen Vereinbarungen zu gelangen. Mit dem Fortschritt der KI-Systeme in den letzten Jahren ist offensichtlich geworden, dass solche Vereinbarungen, um für die beteiligten Parteien akzeptabel zu sein, mit ethischen Prinzipien und moralischen Werten übereinstimmen müssen. Allerdings ist es notorisch schwierig, dies sicherzustellen, insbesondere da verschiedene menschliche Benutzer (und ihre Softwareagenten) unterschiedliche Wertesysteme haben können, d.h. sie können die Bedeutung einzelner moralischer Werte unterschiedlich gewichten. Darüber hinaus ist es oft schwierig, die genaue Bedeutung eines Wertes in einem bestimmten Kontext auf computergestützte Weise zu spezifizieren. Methoden zur Schätzung von Wertesystemen basierend auf menschlich entwickelten Spezifikationen, z.B. basierend auf Wertumfragen, sind aufgrund der Notwendigkeit intensiver menschlicher Moderation in ihrem Maßstab begrenzt. In diesem Artikel schlagen wir eine neuartige Methode vor, um Wertesysteme automatisch aus Beobachtungen und menschlichen Demonstrationen zu lernen. Insbesondere schlagen wir ein formales Modell des Problems des Lernens von Wertesystemen vor, seine Instanziierung auf sequentielle Entscheidungsfindungsdomänen basierend auf mehrzieligen Markov-Entscheidungsprozessen sowie maßgeschneiderte, präferenzbasierte und inverse Verstärkungslernalgorithmen zur Ableitung von Wertegrundungsfunktionen und Wertesystemen. Der Ansatz wird durch zwei simulierte Anwendungsfälle veranschaulicht und bewertet.

Bookmark

View Full Paper

Bookmark

View Full Paper

Erlernen der Wertesysteme von Agenten mit präferenzbasiertem und inversen Verstärkungslernen

Key Points

Abstract

Cite This Study