What type of study is this?

This is a Quantitative Study study.

October 3, 2025Open Access

Randomisierte Glättung trifft auf Vision-Language-Modelle

Key Points

Randomisierte Glättung für generative Modelle führt zu effektiver Robustheitszertifizierung.
Die Nutzung von Oracle-Klassifikatoren verbindet generative Ausgaben mit Klassifikationsaufgaben in Maschinenlernmodellen.
Die Studie zeigt eine gültige Entsprechung zwischen der Anzahl der Proben und dem zertifizierten Robustheitsradius.
Verbesserte Skalierungsgesetze validieren, dass weniger Proben minimalen Verlust in der Robustheitszertifizierung aufrechterhalten können.

Abstract

Randomisierte Glättung (RS) ist eine der herausragenden Techniken zur Sicherstellung der Korrektheit von Maschinenlernmodellen, bei denen punktweise Robustheitszertifikate analytisch abgeleitet werden können. Während RS für Klassifikationen gut verstanden ist, ist ihre Anwendung auf generative Modelle unklar, da deren Ausgaben Sequenzen anstelle von Labels sind. Wir lösen dies, indem wir generative Ausgaben mit einer Oracle-Klassifikationsaufgabe verbinden und zeigen, dass RS weiterhin aktiviert werden kann: die endgültige Antwort kann als diskrete Aktion klassifiziert werden (z.B. Befehle für Service-Roboter in VLAs), als schädlich vs. harmlos (Inhaltsmoderation oder Toxizitätserkennung in VLMs) oder sogar Orakel angewendet werden, um Antworten in semantisch äquivalente zu gruppieren. Vorausgesetzt, dass die Fehlerquote für den Vergleich des Oracle-Klassifikators begrenzt ist, entwickeln wir die Theorie, die die Anzahl der Proben mit dem entsprechenden Robustheitsradius assoziiert. Weiterhin leiten wir verbesserte Skalierungsgesetze analytisch ab, die den zertifizierten Radius und die Genauigkeit mit der Anzahl der Proben in Beziehung setzen und zeigen, dass das frühere Ergebnis, dass 2 bis 3 Größenordnungen weniger Proben mit minimalem Verlust ausreichen, selbst unter schwächeren Annahmen gültig bleibt. Gemeinsam machen diese Fortschritte die Robustheitszertifizierung sowohl gut definiert als auch rechnerisch machbar für moderne VLMs, wie gegen kürzliche Jailbreak-artige adversarielle Angriffe validiert wurde.

Randomisierte Glättung trifft auf Vision-Language-Modelle

Key Points

Abstract

Cite This Study

Also Consider

Also Consider