Key points are not available for this paper at this time.
Die Verfolgung des Dialogzustands (DST) wird durch exakte Übereinstimmungsmethoden bewertet, die auf großen Mengen an beschrifteten Daten basieren und die semantische Konsistenz ignorieren, was zu einer Überbewertung führt. Derzeit hat die Nutzung großer Sprachmodelle (LLM) bei der Evaluierung von Aufgaben der Verarbeitung natürlicher Sprache vielversprechende Ergebnisse erzielt. Die Verwendung von LLM zur Evaluierung von DST ist jedoch noch nicht umfassend erforscht. In diesem Papier schlagen wir eine zweidimensionale Zero-Shot-Evaluationsmethode für DST unter Verwendung von GPT-4 vor, die die Bewertung in zwei Dimensionen unterteilt: Genauigkeit und Vollständigkeit. Darüber hinaus entwerfen wir zwei manuelle Denkpfade, um die Genauigkeit der Evaluierung weiter zu verbessern. Experimentelle Ergebnisse zeigen, dass unsere Methode eine bessere Leistung im Vergleich zu den Baselines erzielt und mit traditionellen Methoden der exakten Übereinstimmung konsistent ist.
Gu et al. (Mon,) untersuchten diese Frage.