Key points are not available for this paper at this time.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten bei einer Vielzahl von NLP-Aufgaben gezeigt. Trotz ihrer Effektivität neigen diese Modelle dazu, nicht faktische Inhalte zu erzeugen. Die Unsicherheitsquantifizierung (UQ) ist entscheidend, um unser Verständnis für das Vertrauen eines Modells in seine generierten Inhalte zu verbessern und so bei der Minderung nicht faktischer Ausgaben zu helfen. Bestehende Forschungen zur UQ zielen überwiegend auf die Generierung kurzer Texte ab, die typischerweise kurze, wortlimitierte Antworten liefern. In der Realität erfordern Anwendungen jedoch häufig deutlich längere Antworten. Unsere Studie hebt zunächst die Grenzen der derzeitigen UQ-Methoden bei der Handhabung der Generierung langer Texte hervor. Anschließend führen wir Luq ein, einen neuartigen sampling-basierten UQ-Ansatz, der speziell für lange Texte entwickelt wurde. Unsere Ergebnisse zeigen, dass Luq in der Korrelation mit den Faktizitätswerten des Modells (negativer Koeffizient von -0,85 für Gemini Pro) bestehende Basismethoden übertrifft. Mit Luq als Werkzeug für UQ untersuchen wir Verhaltensmuster des Vertrauensspektrums der Antworten mehrerer populärer LLMs und wie dies mit der Faktizität der Antworten zusammenhängt. Wir stellen fest, dass LLMs wenig Vertrauen in die Generierung langer Texte für seltene Fakten haben und ein faktisch starkes Modell (d.h. GPT-4) dazu neigt, Fragen abzulehnen, bei denen es sich unsicher ist. Um die faktische Genauigkeit der LLM-Antworten weiter zu verbessern, schlagen wir eine Methode namens Luq-Ensemble vor, die Antworten von mehreren Modellen zusammenführt und die Antwort mit der geringsten Unsicherheit auswählt. Die Methode zur Zusammensetzung verbessert die Faktizität der Antworten erheblich im Vergleich zum besten eigenständigen LLM.
Zhang et al. (Freitag) haben diese Frage untersucht.