Key points are not available for this paper at this time.
Große Sprachmodelle (LLMs) haben sich als anfällig für Halluzinationen erwiesen, wenn die Frage ihre internen Wissensgrenzen überschreitet. Ein zuverlässiges Modell sollte ein klares Bewusstsein für seine Wissensgrenzen haben, korrekte Antworten innerhalb seines Umfangs geben und sich weigern zu antworten, wenn es kein Wissen hat. Die vorhandene Forschung zur Wahrnehmung der Wissensgrenzen von LLMs verwendet typischerweise entweder die Wahrscheinlichkeit der erzeugten Tokens oder die verbalisierten Zuversicht als das Vertrauen des Modells in seine Antwort. Diese Studien überssehen jedoch die Unterschiede und Zusammenhänge zwischen den beiden. In diesem Papier führen wir eine umfassende Analyse und einen Vergleich der probabilistischen Wahrnehmung und der verbalisierten Wahrnehmung der tatsächlichen Wissensgrenzen von LLMs durch. Zunächst untersuchen wir die Vor- und Nachteile dieser beiden Wahrnehmungen. Dann untersuchen wir, wie sie sich unter Fragen unterschiedlicher Frequenzen ändern. Schließlich messen wir die Korrelation zwischen dem probabilistischen Vertrauen der LLMs und der verbalisierten Zuversicht. Die experimentellen Ergebnisse zeigen, dass 1) die probabilistische Wahrnehmung der LLMs im Allgemeinen genauer ist als die verbalisierten Wahrnehmung, jedoch eine Validierungsgruppe im Anwendungsbereich benötigt, um den Vertrauensgrad anzupassen. 2) Beide Wahrnehmungen schneiden bei weniger häufigen Fragen besser ab. 3) Es ist für LLMs herausfordernd, ihr internes Vertrauen in natürlicher Sprache genau auszudrücken.
Ni et al. (Mon,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: