March 31, 2024Open Access

ResNet-Modell unter Verwendung der DA-S-Methode zur Verbesserung der Genauigkeit der Spracherkennung von Emotionen

Key Points

Key points are not available for this paper at this time.

Abstract

In den letzten Jahren gab es aktive Forschungen zur Emotionserkennung basierend auf Sprachdaten, die in verschiedenen Plattformen genutzt werden können. Trotz der bedeutenden Fortschritte in der Forschung zur Emotionserkennung basierend auf der koreanischen Sprache im Land bleibt das Hauptproblem der Mangel an koreanischen Sprachdatenbanken. Aufgrund des Fehlens solcher Daten gibt es Fälle, in denen Überanpassungsprobleme in Modellen auftreten, die in früheren Studien vorgeschlagen wurden. Daher schlägt diese Studie ein ResNet-Modell vor, das die Datenaugmentation mit der Saturation (DA-S) Methode verwendet, um die Leistung der Spracherkennung von Emotionen unter Verwendung des bestehenden Modells zu verbessern. In dieser Studie wurde die Anzahl der Daten von 5.596 auf 11.192 erhöht, indem DA-S mit der AI-HUB-Datenbank angewendet wurde. Folglich adressierte das vorgeschlagene Modell erfolgreich das Überanpassungsproblem, was zu einer Verbesserung der Genauigkeit der Spracherkennung von Emotionen um 31,76% führte. Darüber hinaus wurden Experimente mit insgesamt 11.192 Datenproben durchgeführt, einschließlich der Originaldaten und der Daten mit DA-S, um die Auswirkungen von Datenaugmentationstechniken auf die Transformation und Erweiterung der Daten sowie die Leistungsverbesserungen aufgrund der Erhöhung des Datenvolumens zu demonstrieren. Das Ergebnis zeigte, dass eine Verbesserung von 23,4% erzielt wurde, als DA-S angewendet wurde.

ResNet-Modell unter Verwendung der DA-S-Methode zur Verbesserung der Genauigkeit der Spracherkennung von Emotionen

Key Points

Abstract

Cite This Study