Da große Sprachmodelle (LLMs) zunehmend integraler Bestandteil von Softwareentwicklungsabläufen werden, ist ihre Fähigkeit, strukturierte Ausgaben zu erzeugen, von entscheidender Bedeutung. Wir führen StructEval ein, einen umfassenden Benchmark zur Bewertung der Fähigkeiten von LLMs bei der Erstellung sowohl nicht darstellbarer (JSON, YAML, CSV) als auch darstellbarer (HTML, React, SVG) strukturierter Formate. Im Gegensatz zu früheren Benchmarks bewertet StructEval systematisch die strukturelle Treue über verschiedene Formate hinweg durch zwei Paradigmen: 1) Generierungsaufgaben, die strukturierte Ausgaben aus natürlichen Sprachaufforderungen erzeugen, und 2) Umwandlungsaufgaben, die zwischen strukturierten Formaten übersetzen. Unser Benchmark umfasst 18 Formate und 44 Arten von Aufgaben und bietet neuartige Metriken für Formatkonformität und strukturelle Richtigkeit. Die Ergebnisse zeigen erhebliche Leistungsunterschiede, selbst hochmoderne Modelle wie o1-mini erreichen nur einen Durchschnittswert von 75,58, während Open-Source-Alternativen etwa 10 Punkte zurückliegen. Wir stellen fest, dass Generierungsaufgaben herausfordernder sind als Umwandlungsaufgaben und dass die Erzeugung korrekter visueller Inhalte schwieriger ist als die Generierung rein textbasierter Strukturen.
Yang et al. (Mon,) haben diese Frage untersucht.