September 30, 2025Open Access

StructEval: Bewertung der Fähigkeiten von LLMs zur Generierung struktureller Ausgaben

Key Points

Es gibt erhebliche Leistungsunterschiede zwischen LLMs, wobei das leistungsstärkste Modell im Benchmark nur 75,58 erreicht.
Generierte strukturierte Ausgaben, insbesondere darstellbare Formate, zeigen größere Herausforderungen als einfache Umwandlungen.
StructEval bewertet die Konformität zu 18 Formaten über 44 Aufgaben und bietet neuartige Metriken für die Genauigkeit.
Der Benchmark hebt die Bedeutung der strukturellen Treue in den Softwareentwicklungsabläufen hervor.

Abstract

Da große Sprachmodelle (LLMs) zunehmend integraler Bestandteil von Softwareentwicklungsabläufen werden, ist ihre Fähigkeit, strukturierte Ausgaben zu erzeugen, von entscheidender Bedeutung. Wir führen StructEval ein, einen umfassenden Benchmark zur Bewertung der Fähigkeiten von LLMs bei der Erstellung sowohl nicht darstellbarer (JSON, YAML, CSV) als auch darstellbarer (HTML, React, SVG) strukturierter Formate. Im Gegensatz zu früheren Benchmarks bewertet StructEval systematisch die strukturelle Treue über verschiedene Formate hinweg durch zwei Paradigmen: 1) Generierungsaufgaben, die strukturierte Ausgaben aus natürlichen Sprachaufforderungen erzeugen, und 2) Umwandlungsaufgaben, die zwischen strukturierten Formaten übersetzen. Unser Benchmark umfasst 18 Formate und 44 Arten von Aufgaben und bietet neuartige Metriken für Formatkonformität und strukturelle Richtigkeit. Die Ergebnisse zeigen erhebliche Leistungsunterschiede, selbst hochmoderne Modelle wie o1-mini erreichen nur einen Durchschnittswert von 75,58, während Open-Source-Alternativen etwa 10 Punkte zurückliegen. Wir stellen fest, dass Generierungsaufgaben herausfordernder sind als Umwandlungsaufgaben und dass die Erzeugung korrekter visueller Inhalte schwieriger ist als die Generierung rein textbasierter Strukturen.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper