Bewertung der menschlichen Übereinstimmung und Modelltreue von LLM-Begründungen

Key Points

Key points are not available for this paper at this time.

Abstract

Wir untersuchen, wie gut große Sprachmodelle (LLMs) ihre Generationen mit Begründungen erklären – einer Menge von Tokens, die aus den Eingabetexten extrahiert wurden und den Entscheidungsprozess der LLMs widerspiegeln. Wir analysieren LLM-Begründungen, die mit zwei Methoden extrahiert wurden: 1) attributbasierte Methoden, die Aufmerksamkeit oder Gradienten nutzen, um wichtige Tokens zu lokalisieren, und 2) promptbasierte Methoden, die LLMs anleiten, Begründungen mithilfe von Aufforderungen zu extrahieren. Durch umfangreiche Experimente zeigen wir, dass promptbasierte Begründungen besser mit von Menschen annotierten Begründungen übereinstimmen als attributbasierte Begründungen, und zeigen eine angemessene Übereinstimmung mit Menschen, selbst wenn die Modellleistung schwach ist. Wir stellen außerdem fest, dass die Treuebegrenzungen von promptbasierten Methoden, die in früheren Arbeiten identifiziert wurden, möglicherweise mit ihren kollabierten Vorhersagen verknüpft sind. Durch das Feintuning dieser Modelle auf den entsprechenden Datensätzen zeigen sowohl Prompt- als auch Attributionsmethoden verbesserte Treue. Unsere Studie beleuchtet rigorosere und gerechtere Bewertungen von LLM-Begründungen, insbesondere für promptbasierte.

Bewertung der menschlichen Übereinstimmung und Modelltreue von LLM-Begründungen

Key Points

Abstract

Cite This Study