January 1, 2015Open Access

Das Ubuntu-Dialektkorpus: Ein großes Datenset für die Forschung in unstrukturierten Mehrdrehsystemen

Key Points

Key points are not available for this paper at this time.

Abstract

Dieses Papier stellt das Ubuntu-Dialektkorpus vor, ein Datenset, das nahezu 1 Million Mehrdrehsdialoge enthält, mit insgesamt über 7 Millionen Äußerungen und 100 Millionen Wörtern. Dies bietet eine einzigartige Ressource für die Forschung zum Aufbau von Dialogmanagern auf Basis neuronaler Sprachmodelle, die große Mengen unbeschrifteter Daten nutzen können. Das Datenset hat sowohl die Mehrdreheigenschaft der Gespräche in den Datensätzen der Dialog State Tracking Challenge als auch die unstrukturierte Natur von Interaktionen aus Mikroblog-Diensten wie Twitter. Wir beschreiben auch zwei neuronale Lernarchitekturen, die sich für die Analyse dieses Datensatzes eignen, und liefern Benchmark-Leistungen bei der Aufgabe, die beste nächste Antwort auszuwählen.

Bookmark

View Full Paper