Skalierungsgesetze für Datenvergiftung in LLMs

Key Points

Key points are not available for this paper at this time.

Abstract

Jüngste Arbeiten zeigen, dass LLMs anfällig für Datenvergiftung sind, bei der sie mit teilweise korrumpierten oder schädlichen Daten trainiert werden. Vergiftete Daten sind schwer zu erkennen, durchbrechen Sicherheitsvorkehrungen und führen zu unerwünschtem und schädlichem Verhalten. Angesichts der intensiven Bemühungen führender Labore, zunehmend größere und leistungsfähigere LLMs zu trainieren und einzusetzen, ist es entscheidend zu fragen, ob das Risiko der Datenvergiftung durch die Skalierung natürlich gemildert wird oder ob es eine zunehmende Bedrohung darstellt. Wir betrachten drei Bedrohungsmodelle, durch die Datenvergiftung auftreten kann: bösartiges Fine-Tuning, unvollkommene Datenkuratierung und absichtliche Datenkontamination. Unsere Experimente bewerten die Auswirkungen von Datenvergiftung auf 23 fortschrittliche LLMs mit 1,5 bis 72 Milliarden Parametern auf drei Datensätzen, die jeweils auf unsere Bedrohungsmodelle eingehen. Wir stellen fest, dass größere LLMs zunehmend anfällig sind und schädliches Verhalten erheblich schneller lernen als kleinere LLMs, selbst bei minimaler Datenvergiftung. Diese Ergebnisse unterstreichen die Notwendigkeit robuster Schutzmaßnahmen gegen Datenvergiftung in größeren LLMs.

Skalierungsgesetze für Datenvergiftung in LLMs

Key Points

Abstract

Cite This Study

Also Consider

Also Consider