Key points are not available for this paper at this time.
Frühere Studien waren darauf beschränkt, ein oder zwei Aufgaben an große Sprachmodelle (LLMs) zu vergeben und umfassten eine kleine Anzahl von Evaluatoren innerhalb eines einzelnen Bereichs, um die Antworten der LLMs zu bewerten. Wir haben die Kompetenz von vier LLMs beurteilt, indem wir acht Aufgaben angewendet und 32 Ergebnisse mit 17 Evaluatoren aus verschiedenen Bereichen bewertet haben, was die Bedeutung verschiedener Aufgaben und Evaluatoren für LLMs zeigt.
Kim et al. (Thu,) haben diese Frage untersucht.