Key points are not available for this paper at this time.
Rapide Fortschritte bei generativen Text-zu-Bild-Modellen und deren Einsatz zur Erstellung visuellem Inhalts haben die Bedeutung einer gründlichen Bewertung ihrer Leistungsfähigkeit und der Identifizierung potenzieller Verzerrungen verstärkt. Auf der Suche nach Modellen, die Bilder erzeugen, die realistisch, vielfältig, visuell ansprechend und konsistent mit dem gegebenen Prompt sind, wenden sich Forscher und Praktiker oft automatisierten Metriken zu, um eine skalierbare und kosteneffektive Leistungsbewertung zu erleichtern. Allerdings versäumen es gängige Metriken oft, die gesamte Vielfalt menschlicher Präferenzen zu berücksichtigen; selbst tiefgehende menschliche Bewertungen stehen oft vor Herausforderungen mit Subjektivität, insbesondere da die Interpretationen von Bewertungskriterien je nach Region und Kultur variieren. In dieser Arbeit führen wir eine große, kulturenübergreifende Studie durch, um zu untersuchen, inwieweit Annotatoren in Afrika, Europa und Südostasien in ihrer Wahrnehmung geografischer Repräsentation, visueller Anziehungskraft und Konsistenz in realen und generierten Bildern aus hochmodernen öffentlichen APIs variieren. Wir sammeln über 65.000 Bildannotationen und 20 Umfrageantworten. Wir kontrastieren menschliche Annotationen mit gängigen automatisierten Metriken und stellen fest, dass menschliche Präferenzen erheblich je nach geografischem Standort variieren und dass aktuelle Metriken diese Vielfalt nicht vollständig berücksichtigen. Zum Beispiel sind sich Annotatoren an verschiedenen Standorten oft uneinig darüber, ob übertriebene, stereotype Darstellungen einer Region als geografisch repräsentativ angesehen werden. Darüber hinaus hängt die Nützlichkeit automatischer Bewertungen von Annahmen über deren Einrichtung ab, wie der Ausrichtung von Merkmaleextraktoren an der menschlichen Wahrnehmung von Objektähnlichkeit oder der Definition von "Anziehungskraft", die in Referenzdatensätzen erfasst wird, die zur Grundlage von Bewertungen verwendet werden. Wir empfehlen Schritte zur Verbesserung automatischer und menschlicher Bewertungen. Dazu gehört die Sammlung von Annotationen von Personen, die sich innerhalb und außerhalb der Region von Interesse befinden, die Anleitung der Annotatoren, ob sie spezifische Definitionen von Bewertungskriterien folgen oder ihre eigene Interpretation nutzen sollen, und die Berichterstattung über Annahmen, die automatischen Bewertungen zugrunde liegen.
Hall et al. (Mon,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: