Randomisierte Glättung (RS) ist eine der herausragenden Techniken zur Sicherstellung der Korrektheit von Maschinenlernmodellen, bei denen punktweise Robustheitszertifikate analytisch abgeleitet werden können. Während RS für Klassifikationen gut verstanden ist, ist ihre Anwendung auf generative Modelle unklar, da deren Ausgaben Sequenzen anstelle von Labels sind. Wir lösen dies, indem wir generative Ausgaben mit einer Oracle-Klassifikationsaufgabe verbinden und zeigen, dass RS weiterhin aktiviert werden kann: die endgültige Antwort kann als diskrete Aktion klassifiziert werden (z.B. Befehle für Service-Roboter in VLAs), als schädlich vs. harmlos (Inhaltsmoderation oder Toxizitätserkennung in VLMs) oder sogar Orakel angewendet werden, um Antworten in semantisch äquivalente zu gruppieren. Vorausgesetzt, dass die Fehlerquote für den Vergleich des Oracle-Klassifikators begrenzt ist, entwickeln wir die Theorie, die die Anzahl der Proben mit dem entsprechenden Robustheitsradius assoziiert. Weiterhin leiten wir verbesserte Skalierungsgesetze analytisch ab, die den zertifizierten Radius und die Genauigkeit mit der Anzahl der Proben in Beziehung setzen und zeigen, dass das frühere Ergebnis, dass 2 bis 3 Größenordnungen weniger Proben mit minimalem Verlust ausreichen, selbst unter schwächeren Annahmen gültig bleibt. Gemeinsam machen diese Fortschritte die Robustheitszertifizierung sowohl gut definiert als auch rechnerisch machbar für moderne VLMs, wie gegen kürzliche Jailbreak-artige adversarielle Angriffe validiert wurde.
Seferis et al. (Fr,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: