July 1, 2024Open Access

Erhöhung der Fähigkeit und Robustheit großer Sprachmodelle durch verstärkendes Lernen-gesteuerte Abfrageverfeinerung

Key Points

Key points are not available for this paper at this time.

Abstract

Die Fähigkeit großer Sprachmodelle (LLMs), ehrliche, harmlose und hilfreiche Antworten zu generieren, hängt stark von der Qualität der Benutzeranfragen ab. Diese Anfragen sind jedoch oft kurz und vage, was das volle Potenzial der LLMs erheblich einschränkt. Darüber hinaus können schädliche Anfragen sorgfältig erstellt und von Gegnern manipuliert werden, um LLMs auszuloten und sie dazu zu bringen, potenziell toxische Inhalte zu produzieren. Um die Fähigkeiten der LLMs zu verbessern und gleichzeitig eine hohe Robustheit gegen schädliche Jailbreak-Eingaben aufrechtzuerhalten, schlägt diese Studie ein übertragbares und plug-and-play-fähiges Framework vor, das Benutzeranfragen verfeinert, bevor sie in LLMs eingegeben werden. Diese Strategie verbessert die Qualität der Abfragen und befähigt LLMs dazu, wahrheitsgemäßere, harmlose und nützliche Antworten zu generieren. Konkret wird ein leichtgewichtiges Modell zur Abfrageverfeinerung eingeführt und unter Verwendung eines speziell gestalteten Verstärkungslernansatzes trainiert, der mehrere Ziele integriert, um bestimmte Fähigkeiten der LLMs zu verbessern. Umfangreiche Experimente zeigen, dass das Verfeinerungsmodell nicht nur die Qualität der Antworten verbessert, sondern auch ihre Robustheit gegen Jailbreak-Angriffe stärkt. Der Code ist verfügbar unter: https://github.com/Huangzisu/query-refinement.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper