Key points are not available for this paper at this time.
Große Sprachmodelle (LLMs) erzeugen häufig Inhalte, die faktische Fehler enthalten, wenn sie auf faktenorientierte Eingaben zu offenen Themen reagieren. Um die langfristige Faktizität eines Modells in offenen Bereichen zu bewerten, verwenden wir zunächst GPT-4, um LongFact zu generieren, ein Prompt-Set, das Tausende von Fragen zu 38 Themen umfasst. Wir schlagen dann vor, dass LLM-Agenten als automatisierte Bewertungswerkzeuge für langfristige Faktizität eingesetzt werden können, durch ein Verfahren, das wir als Search-Augmented Factuality Evaluator (SAFE) bezeichnen. SAFE nutzt ein LLM, um eine langfristige Antwort in eine Reihe von Einzelheiten zu zerlegen und die Genauigkeit jeder Tatsache mithilfe eines mehrstufigen Denkprozesses zu bewerten, der das Senden von Suchanfragen an Google Search und die Feststellung umfasst, ob eine Tatsache durch die Suchergebnisse unterstützt wird. Darüber hinaus schlagen wir vor, den F1-Score als aggregierte Metrik für langfristige Faktizität zu erweitern. Dazu balancieren wir den Prozentsatz der unterstützten Fakten in einer Antwort (Präzision) mit dem Prozentsatz der bereitgestellten Fakten im Verhältnis zu einem Hyperparameter, der die bevorzugte Antwortlänge eines Benutzers darstellt (Rückruf). Empirisch demonstrieren wir, dass LLM-Agenten eine übermenschliche Bewertung leisten können - bei einem Satz von ~16k Einzelheiten stimmt SAFE in 72 % der Fälle mit crowdsourced menschlichen Annotatoren überein, und bei einer zufälligen Teilmenge von 100 Streitfällen gewinnt SAFE in 76 % der Fälle. Gleichzeitig ist SAFE mehr als 20 Mal günstiger als menschliche Annotatoren. Wir bewerten auch dreizehn Sprachmodelle auf LongFact über vier Modell-Familien (Gemini, GPT, Claude und PaLM-2) und stellen fest, dass größere Sprachmodelle im Allgemeinen eine bessere langfristige Faktizität erzielen. LongFact, SAFE und der gesamte experimentelle Code sind verfügbar unter https://github.com/google-deepmind/long-form-factuality.
Wei et al. (Mi.) untersuchten diese Frage.