Key points are not available for this paper at this time.
Wir schlagen einen Benchmark vor, um zu messen, ob ein Sprachmodell wahrheitsgetreu Antworten auf Fragen generiert. Der Benchmark umfasst 817 Fragen, die sich über 38 Kategorien erstrecken, darunter Gesundheit, Recht, Finanzen und Politik. Wir haben Fragen formuliert, die einige Menschen aufgrund von falschen Überzeugungen oder Missverständnissen falsch beantworten würden. Um gut abzuschneiden, müssen Modelle vermeiden, falsche Antworten zu generieren, die aus der Nachahmung menschlicher Texte gelernt wurden. Wir haben GPT-3, GPT-Neo/J, GPT-2 und ein T5-basiertes Modell getestet. Das beste Modell war in 58 % der Fragen wahrheitsgemäß, während die menschliche Leistung 94 % betrug. Modelle generierten viele falsche Antworten, die gängigen Missverständnissen ähneln und das Potenzial haben, Menschen zu täuschen. Die größten Modelle waren allgemein die wenigsten wahrheitsgetreuen. Dies steht im Gegensatz zu anderen NLP-Aufgaben, bei denen die Leistung mit der Modellgröße steigt. Dieses Ergebnis ist jedoch zu erwarten, wenn falsche Antworten aus der Trainingsverteilung gelernt werden. Wir schlagen vor, dass die alleinige Vergrößerung von Modellen weniger vielversprechend für die Verbesserung der Wahrheitstreue ist, als die Feinabstimmung unter Verwendung von Trainingszielen, die sich von der Nachahmung von Texten aus dem Web unterscheiden.
Lin et al. (Sat,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: