May 29, 2024Open Access

L'exactitude de l'analyse spécifique au domaine et de l'analyse descriptive générées par des modèles de langage de grande taille

Key Points

Key points are not available for this paper at this time.

Abstract

Les modèles de langage de grande taille (LLMs) ont attiré une attention considérable car ils sont capables de démontrer des capacités impressionnantes en générant des réponses de haute qualité comparables à celles des inputs humains. Les LLMs peuvent non seulement composer des scripts textuels tels que des courriels et des essais, mais aussi du code de programmation exécutable. En revanche, la capacité de raisonnement automatisé de ces LLMs pour effectuer une analyse descriptive basée sur des statistiques, en particulier sur des données spécifiques à l'utilisateur et comme assistants personnels pour des utilisateurs ayant des connaissances de base limitées dans un domaine d'application qui souhaiteraient réaliser des analyses statistiques de base, ainsi que des analyses avancées et spécifiques à un domaine n'est pas encore pleinement explorée. Plus important encore, la performance de ces LLMs n'a pas été comparée et discutée en détail lorsque des tâches d'analyse de données spécifiques à un domaine sont nécessaires. Cette étude explore donc si les LLMs peuvent être utilisés comme assistants personnels basés sur l'IA générative pour aider les utilisateurs ayant des connaissances de base minimales dans un domaine d'application à inférer des insights clés des données. Pour démontrer la performance des LLMs, l'étude rapporte une étude de cas à travers laquelle une analyse statistique descriptive, ainsi que des investigations basées sur le traitement du langage naturel (NLP), sont effectuées sur un certain nombre de courriels de phishing dans le but de comparer l'exactitude des résultats générés par les LLMs à ceux produits par des analystes. Les résultats expérimentaux montrent que LangChain et le Generative Pre-trained Transformer (GPT-4) excellent dans des tâches de raisonnement numérique c'est-à-dire, l'analyse statistique temporelle, atteignent une corrélation compétitive avec les jugements humains sur des tâches d'ingénierie des caractéristiques tout en ayant du mal dans une certaine mesure à raisonner avec des connaissances spécifiques au domaine, où des connaissances spécifiques au domaine sont requises.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper