What type of study is this?

This is a Quantitative Study study.

September 20, 2025

Lernen zu erklären: Hin zu menschenorientierter Erklärbarkeit im tiefen Verstärkungslernen durch Aufmerksamkeitsführung

Key Points

Concept-PPO generiert menschenorientierte Erklärungen und verbessert die Interpretierbarkeit im tiefen Verstärkungslernen.
Experimente an der ATARI-Benchmark zeigen, dass Concept-PPO Black-Box-Methoden bei der Politikgenerierung übertrifft.
Benutzerstudien bestätigen, dass die von Concept-PPO bereitgestellten Erklärungen besser mit menschlichen Präferenzen übereinstimmen.
Der räumliche Konzepttransmitter verbessert die Erklärungseffizienz, indem er irrelevante Informationen herausfiltert.

Abstract

Jüngste Fortschritte im erklärbaren tiefen Verstärkungslernen (DRL) haben Einblicke in die Entscheidungsfindung von DRL-Agenten gegeben. Bestehende Methoden berücksichtigen jedoch oft die subjektive Natur von Erklärungen nicht und vernachlässigen menschliche kognitive Stile und Präferenzen. Diese Ignoranz tendiert dazu, die Interpretierbarkeit und Relevanz der generierten Erklärungen aus der Perspektive eines menschlichen Evaluators zu verringern. Um dieses Problem zu lösen, integrieren wir menschliche Kognition in den Erklärungsprozess, indem wir DRL auf neuartige Weise mit Aufmerksamkeitsführung kombinieren. Das vorgeschlagene Konzept der proximalen Politikoptimierung (Concept-PPO) lernt, menschenorientierte Erklärungen zu generieren, indem es sowohl die DRL-Leistung als auch die Diskrepanz zwischen generierten Erklärungen und menschlichen Anmerkungen gemeinsam optimiert. Das Schlüsselkomponente ist ein speziell entwickelter räumlicher Konzepttransmitter, der die Erklärungseffizienz durch die Vorabfilterung von entscheidungsirrelevanten Informationen verbessern kann. Experimente an der ATARI-Benchmark zeigen, dass Concept-PPO bessere Politiken erzielt als seine Black-Box-Pendants, und Benutzerstudien bestätigen die Überlegenheit bei der Generierung von menschenorientierten Erklärungen im Vergleich zu bestehenden erklärbaren DRL-Methoden.

KI fragen

Bookmark