Key points are not available for this paper at this time.
Aktuelle LLMs sind im Allgemeinen darauf ausgerichtet, Sicherheitsanforderungen zu folgen, und neigen dazu, toxische Eingaben abzulehnen. Allerdings können LLMs toxische Eingaben nicht ablehnen oder übervorsichtig sein und harmlose Beispiele ablehnen. Darüber hinaus haben moderne Toxizitätsdetektoren niedrige TPRs bei niedrigen FPRs, was in realen Anwendungen, in denen toxische Beispiele selten sind, hohe Kosten verursacht. In diesem Papier untersuchen wir die Moderation unter Verwendung von LLM-Introspektion (MULI), die toxische Eingaben anhand der Informationen erkennt, die direkt von den LLMs selbst extrahiert werden. Wir haben signifikante Unterschiede zwischen harmlosen und toxischen Eingaben in der Verteilung der alternativen Ablehnungsreaktionen und in der Verteilung der Logits des ersten Antworttokens festgestellt. Diese Unterschiede können zur Erkennung von Toxizitäten verwendet werden: Wir zeigen, dass ein Spielzeugmodell, das auf den Logits spezifischer Starttokens basiert, eine zuverlässige Leistung erreicht, während es kein Training oder zusätzliche Rechenkosten erfordert. Wir entwickeln einen robusteren Detektor mit einem spärlichen logistischen Regressionsmodell auf den Logits des ersten Antworttokens, das die SOTA-Detektoren unter mehreren Metriken deutlich übertrifft.
Hu et al. (Mi,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: