Key points are not available for this paper at this time.
Common Crawl est la plus grande collection de données de crawl web librement accessible et l'une des sources les plus importantes de données de préentraînement pour les grands modèles de langage (LLM). Elle est utilisée si fréquemment et constitue une proportion si importante des données globales de préentraînement dans de nombreux cas qu'on peut affirmer qu'elle est devenue un élément fondamental pour le développement des LLM, et par conséquent pour les produits d'IA générative construits sur ces LLM. Malgré son rôle central, Common Crawl lui-même est peu compris, et il y a peu de réflexion visible parmi les constructeurs de LLM sur les implications de l'utilisation des données de Common Crawl. Cet article analyse ce que la popularité de Common Crawl pour le développement des LLM signifie en termes d'équité, de responsabilité et de transparence dans l'IA générative en mettant en lumière les valeurs et pratiques de l'organisation ainsi que la manière dont elle perçoit son propre rôle dans l'écosystème de l'IA. Notre analyse qualitative est basée sur des entretiens approfondis avec le personnel de Common Crawl et des documents en ligne pertinents.
Stefan Baack (Mon,) a étudié cette question.