Key points are not available for this paper at this time.
Les études existantes sur l'entraînement de modèles de pré-entraînement Contrastive Language-Image Pretraining (CLIP) à la pointe de la technologie sur des données à grande échelle impliquent des centaines, voire des milliers de GPU en raison de la nécessité d'une grande taille de lot. Cependant, une telle quantité de ressources n'est pas accessible à la plupart des gens. Bien que des techniques d'optimisation compositionnelles avancées pour optimiser les pertes contrastives globales se soient révélées efficaces pour supprimer l'exigence d'une grande taille de lot, leur performance sur des données à grande échelle reste peu explorée et non optimisée. Pour combler cette lacune, cet article explore plusieurs aspects de l'entraînement CLIP avec des ressources limitées (par exemple, jusqu'à des dizaines de GPU). Premièrement, nous présentons FastCLIP, un cadre général d'entraînement CLIP basé sur des techniques d'optimisation compositionnelles avancées, tout en étant conçu et optimisé pour le cadre distribué. Notre cadre est équipé d'une stratégie de réduction de gradient efficace pour réduire les frais de communication. Deuxièmement, pour améliorer davantage l'efficacité de l'entraînement, nous étudions trois composants du cadre d'un point de vue optimisation : le calendrier du taux d'apprentissage interne, les règles de mise à jour du paramètre de température et des paramètres du modèle, respectivement. Des expériences sur différentes stratégies pour chaque composant éclairent la manière de réaliser l'entraînement CLIP de manière plus efficace. Enfin, nous comparons les performances de FastCLIP et de la référence d'entraînement à la pointe de la technologie (OpenCLIP) sur différentes échelles de calcul allant jusqu'à 32 GPU sur 8 nœuds, et trois échelles de données allant de 2,7 millions, 9,1 millions à 315 millions de paires image-texte pour démontrer l'amélioration significative de FastCLIP dans le cadre de ressources limitées. Nous publions le code de FastCLIP sur https://github.com/Optimization-AI/fastclip.
Wei et al. (Mon,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: