June 3, 2024Open Access

Une analyse critique de la plus grande source de données d'entraînement pour l'IA générative : Common Crawl

Key Points

Key points are not available for this paper at this time.

Abstract

Common Crawl est la plus grande collection de données de crawl web librement accessible et l'une des sources les plus importantes de données de préentraînement pour les grands modèles de langage (LLM). Elle est utilisée si fréquemment et constitue une proportion si importante des données globales de préentraînement dans de nombreux cas qu'on peut affirmer qu'elle est devenue un élément fondamental pour le développement des LLM, et par conséquent pour les produits d'IA générative construits sur ces LLM. Malgré son rôle central, Common Crawl lui-même est peu compris, et il y a peu de réflexion visible parmi les constructeurs de LLM sur les implications de l'utilisation des données de Common Crawl. Cet article analyse ce que la popularité de Common Crawl pour le développement des LLM signifie en termes d'équité, de responsabilité et de transparence dans l'IA générative en mettant en lumière les valeurs et pratiques de l'organisation ainsi que la manière dont elle perçoit son propre rôle dans l'écosystème de l'IA. Notre analyse qualitative est basée sur des entretiens approfondis avec le personnel de Common Crawl et des documents en ligne pertinents.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper