Key points are not available for this paper at this time.
Il y a un intérêt croissant pour l'utilisation du contenu des réseaux sociaux dans les applications de traitement du langage naturel. Cependant, il n'est pas facile d'identifier de manière computationnelle l'ensemble de tweets le plus pertinent lié à un événement spécifique. La sémantique complexe, associée à différentes façons d'utiliser la langue naturelle dans les réseaux sociaux, rend difficile la récupération de l'ensemble de données le plus pertinent de n'importe quelle source de médias sociaux. Cet article cherche à démontrer un moyen de présenter la sémantique changeante de Twitter dans le contexte d'un événement de crise, spécifiquement les tweets pendant l'ouragan Irma. Ces méthodes peuvent être utilisées pour identifier le corpus de texte le plus pertinent pour une analyse en rapport avec un incident spécifique tel qu'un ouragan. En utilisant une implémentation de la méthode Word2Vec des mécanismes de formation de réseaux de neurones pour créer des embeddings de mots, cet article : discutera de la façon dont le sens relatif des mots change à mesure que les événements se déroulent ; présentera un mécanisme pour évaluer les tweets en fonction de la pertinence contextuelle dynamique et relative ; et montrera que la similarité entre les mots n'est pas nécessairement statique. Nous présentons différentes méthodes pour former le modèle vectoriel dans Word2Vec afin d'identifier les tweets les plus pertinents pour toute requête de recherche. L'impact de l'ajustement de paramètres tels que la taille de la fenêtre de mots, la fréquence minimale des mots, la dimensionnalité de la couche cachée, et un échantillonnage négatif sur la performance du modèle a été exploré. La fenêtre contenant le maximum local pour AUROC pour chaque paramètre sert de guide pour d'autres études utilisant les méthodes présentées ici pour l'analyse des données des médias sociaux.
Biggers et al. (Mar,) ont étudié cette question.