January 1, 2015Open Access

C'est tellement agaçant !!! : Une approche d'augmentation de données basée sur l'embedding lexical et sémantique-cadre pour la catégorisation automatique des comportements agaçants utilisant les tweets #petpeeve

Key Points

Key points are not available for this paper at this time.

Abstract

Nous proposons une nouvelle approche d'augmentation des données pour améliorer l'analyse comportementale computationnelle en utilisant le texte des médias sociaux. En particulier, nous collectons un corpus Twitter des descriptions des comportements agaçants en utilisant les hashtags #petpeeve. Dans l'analyse qualitative, nous étudions l'utilisation du langage dans ces tweets, avec un accent particulier sur les catégories fines et la variation géographique de la langue. Dans l'analyse quantitative, nous montrons que les caractéristiques lexicales et syntaxiques sont utiles pour la catégorisation automatique des comportements agaçants, et que les caractéristiques sémantiques-cadres améliorent encore les performances ; que l'utilisation de grands embeddings lexicaux pour créer des instances d'entraînement supplémentaires améliore significativement le modèle lexical ; et que l'incorporation de l'embedding sémantique-cadre atteint les meilleures performances globales. * Nous comprenons que beaucoup de gens trouvent les titres longs agaçants, nous utilisons donc intentionnellement un titre très long pour aider les gens à comprendre ce que signifie "pet peeve".

Bookmark

View Full Paper