Key points are not available for this paper at this time.
Die Fähigkeit großer Sprachmodelle (LLMs), ehrliche, harmlose und hilfreiche Antworten zu generieren, hängt stark von der Qualität der Benutzeranfragen ab. Diese Anfragen sind jedoch oft kurz und vage, was das volle Potenzial der LLMs erheblich einschränkt. Darüber hinaus können schädliche Anfragen sorgfältig erstellt und von Gegnern manipuliert werden, um LLMs auszuloten und sie dazu zu bringen, potenziell toxische Inhalte zu produzieren. Um die Fähigkeiten der LLMs zu verbessern und gleichzeitig eine hohe Robustheit gegen schädliche Jailbreak-Eingaben aufrechtzuerhalten, schlägt diese Studie ein übertragbares und plug-and-play-fähiges Framework vor, das Benutzeranfragen verfeinert, bevor sie in LLMs eingegeben werden. Diese Strategie verbessert die Qualität der Abfragen und befähigt LLMs dazu, wahrheitsgemäßere, harmlose und nützliche Antworten zu generieren. Konkret wird ein leichtgewichtiges Modell zur Abfrageverfeinerung eingeführt und unter Verwendung eines speziell gestalteten Verstärkungslernansatzes trainiert, der mehrere Ziele integriert, um bestimmte Fähigkeiten der LLMs zu verbessern. Umfangreiche Experimente zeigen, dass das Verfeinerungsmodell nicht nur die Qualität der Antworten verbessert, sondern auch ihre Robustheit gegen Jailbreak-Angriffe stärkt. Der Code ist verfügbar unter: https://github.com/Huangzisu/query-refinement.
Huang et al. (Mon,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: