Key points are not available for this paper at this time.
Sarkasmus ist eine subtile Form der Sprache, in der Menschen das Gegenteil dessen ausdrücken, was impliziert wird. Frühere Arbeiten zur Sarkasmus-Erkennung konzentrierten sich auf Texte. Allerdings ermöglichen immer mehr Social-Media-Plattformen wie Twitter den Nutzern, multimodale Nachrichten zu erstellen, die Texte, Bilder und Videos umfassen. Es ist unzureichend, Sarkasmus aus multimodalen Nachrichten nur auf der Grundlage von Texten zu erkennen. In diesem Papier konzentrieren wir uns auf die multimodale Sarkasmus-Erkennung für Tweets, die aus Texten und Bildern auf Twitter bestehen. Wir behandeln Textmerkmale, Bildmerkmale und Bildattribute als drei Modalitäten und schlagen ein multimodales hierarchisches Fusionsmodell vor, um diese Aufgabe zu bewältigen. Unser Modell extrahiert zunächst Bildmerkmale und Attributmerkmale und nutzt dann Attributmerkmale und ein bidirektionales LSTM-Netzwerk, um Textmerkmale zu extrahieren. Die Merkmale der drei Modalitäten werden dann rekonstruiert und zu einem Merkmalsvektor für die Vorhersage fusioniert. Wir erstellen einen multimodalen Sarkasmus-Erkennungsdatensatz basierend auf Twitter. Die Auswertungsergebnisse des Datensatzes zeigen die Wirksamkeit unseres vorgeschlagenen Modells und die Nützlichkeit der drei Modalitäten.
Cai et al. (Tue,) untersuchten diese Frage.