Key points are not available for this paper at this time.
Wir untersuchen, wie gut große Sprachmodelle (LLMs) ihre Generationen mit Begründungen erklären – einer Menge von Tokens, die aus den Eingabetexten extrahiert wurden und den Entscheidungsprozess der LLMs widerspiegeln. Wir analysieren LLM-Begründungen, die mit zwei Methoden extrahiert wurden: 1) attributbasierte Methoden, die Aufmerksamkeit oder Gradienten nutzen, um wichtige Tokens zu lokalisieren, und 2) promptbasierte Methoden, die LLMs anleiten, Begründungen mithilfe von Aufforderungen zu extrahieren. Durch umfangreiche Experimente zeigen wir, dass promptbasierte Begründungen besser mit von Menschen annotierten Begründungen übereinstimmen als attributbasierte Begründungen, und zeigen eine angemessene Übereinstimmung mit Menschen, selbst wenn die Modellleistung schwach ist. Wir stellen außerdem fest, dass die Treuebegrenzungen von promptbasierten Methoden, die in früheren Arbeiten identifiziert wurden, möglicherweise mit ihren kollabierten Vorhersagen verknüpft sind. Durch das Feintuning dieser Modelle auf den entsprechenden Datensätzen zeigen sowohl Prompt- als auch Attributionsmethoden verbesserte Treue. Unsere Studie beleuchtet rigorosere und gerechtere Bewertungen von LLM-Begründungen, insbesondere für promptbasierte.
Fayyaz et al. (Fr,) haben diese Frage untersucht.