Key points are not available for this paper at this time.
ZUSAMMENFASSUNG Die Bewertung offener Fragen ist eine gängige und zeitaufwändige Aufgabe in der Bildung. Mit den kontinuierlichen Fortschritten in der Verarbeitung natürlicher Sprache (NLP) können große Sprachmodelle (LLMs), die auf umfassenden Datensätzen trainiert sind, diesen Prozess unterstützen. Diese Studie bewertet die Verwendung von LLMs, ergänzt durch retrieval‐augmented generation (RAG), zur numerischen Bewertung offener Antworten mit etwa 250 Wörtern. Wir konzentrieren uns auf zwei spanischsprachige technische Kurse und beurteilen allgemeine LLMs. Unsere Ergebnisse zeigen, dass RAG die Bewertungsgenauigkeit verbessert, mit Reduzierungen des mittleren absoluten Fehlers (MAE) von bis zu 19,47 % im Vergleich zur Verwendung von LLMs allein, wobei die beste Konfiguration einen MAE von 1,19 erreicht. Wir stellen auch fest, dass LLMs dazu neigen, hohe Noten zu vergeben, was das Ungleichgewicht des Datensatzes zu höheren Bewertungen widerspiegelt. Diese Arbeit zeigt das Potenzial der Kombination von RAG mit allgemeinen LLMs zur Bewertung spezialisierter spanischer Inhalte auf, wodurch die Kosten und Verzerrungen durch das Fine-Tuning des Modells vermieden werden.
Fernández‐García et al. (Fri,) untersuchten diese Frage.