Key points are not available for this paper at this time.
Klassische Planungsansätze garantieren das Finden einer Menge von Aktionen, die einen gegebenen Zielzustand erreichen können, wenn möglich, erfordern jedoch einen Experten, um die logische Aktionssemantik zu spezifizieren, die die Dynamik der Umgebung steuert. Forscher haben gezeigt, dass große Sprachmodelle (LLMs) verwendet werden können, um Planungs Schritte direkt basierend auf gesundem Menschenverstand und minimalen Domäneninformationen abzuleiten, aber solche Pläne scheitern oft bei der Ausführung. Wir verbinden die Stärken der klassischen Planung und der LLM-gesunden Menschenverstand-Inferenz, um Domäneninduktion durchzuführen, indem wir Aktionsprä- und -postbedingungen basierend auf geschlossenen Schleifen mit der Umgebung selbst lernen und validieren. Wir schlagen PSALM vor, das die LLM-Inferenz nutzt, um partielle Pläne, die von einem klassischen Planer unter gegebenem partiellem Domänenwissen ausgegeben werden, heuristisch zu vervollständigen, sowie die semantischen Regeln der Domäne in einer logischen Sprache basierend auf dem Feedback der Umgebung nach der Ausführung abzuleiten. Unsere Analyse in 7 Umgebungen zeigt, dass mit nur einem vom Experten kuratierten Beispielplan die Verwendung von LLMs als heuristische Planer und Regelvorhersager weniger Umgebungs-Ausführungsschritte und Umgebungs-Rücksetzungen erreicht als zufällige Erkundung und gleichzeitig die zugrundeliegenden wahren Aktionssemantiken der Domäne wiederherstellt.
Zhu et al. (Dienstag) haben diese Frage untersucht.