Key points are not available for this paper at this time.
Red-Teaming, oder die Identifizierung von Eingabeaufforderungen, die schädliche Antworten hervorrufen, ist ein kritischer Schritt, um den sicheren und verantwortungsvollen Einsatz von großen Sprachmodellen (LLMs) zu gewährleisten. Die Entwicklung effektiver Schutzmaßnahmen gegen viele Angriffsmodi erfordert die Entdeckung vielfältiger Angriffe. Automatisiertes Red-Teaming verwendet typischerweise verstärkendes Lernen, um ein angreifendes Sprachmodell zu verfeinern, das Eingaben generiert, die unerwünschte Antworten von einem Ziel-LLM hervorrufen, gemessen beispielsweise durch einen Hilfstoxizitätsklassifizierer. Wir zeigen, dass bestehende Ansätze selbst bei ausdrücklicher Regularisierung zur Förderung von Neuheit und Diversität unter Modus-Kollaps leiden oder keine effektiven Angriffe generieren können. Als flexible und probabilistisch fundierte Alternative schlagen wir vor, GFlowNet-Feinabstimmung zu verwenden, gefolgt von einer sekundären Glättungsphase, um das Angreifermodell zu trainieren, um vielseitige und effektive Angriffsaufforderungen zu generieren. Wir stellen fest, dass die Angriffe, die mit unserer Methode generiert wurden, gegen eine breite Palette von Ziel-LLMs, sowohl mit als auch ohne Sicherheitstuning, effektiv sind und gut zwischen Ziel-LLMs transferiert werden. Schließlich zeigen wir, dass Modelle, die mithilfe eines Datensatzes von Red-Teaming-Eingaben, die mit unserer Methode generiert wurden, sicher abgestimmt wurden, robust gegen Angriffe von anderen RL-basierten Red-Teaming-Ansätzen sind.
Lee et al. (Tue,) haben diese Frage untersucht.