Key points are not available for this paper at this time.
Estudos existentes sobre o treinamento de modelos de Pré-Treinamento de Linguagem-Imagens Contrastivo (CLIP) de última geração em dados em larga escala envolvem centenas ou até milhares de GPUs, devido à necessidade de um grande tamanho de lote. No entanto, essa quantidade de recursos não é acessível à maioria das pessoas. Embora técnicas avançadas de otimização composicional para otimizar perdas contrastivas globais tenham se mostrado eficazes para remover a exigência de um grande tamanho de lote, seu desempenho em dados em larga escala permanece pouco explorado e não otimizado. Para preencher essa lacuna, este artigo explora vários aspectos do treinamento do CLIP com recursos limitados (por exemplo, até dezenas de GPUs). Primeiro, apresentamos o FastCLIP, um framework geral de treinamento CLIP baseado em técnicas avançadas de otimização composicional, projetado e otimizado para o ambiente distribuído. Nosso framework é equipado com uma estratégia eficiente de redução de gradiente para reduzir a sobrecarga de comunicação. Em segundo lugar, para aumentar ainda mais a eficiência do treinamento, investigamos três componentes do framework sob uma perspectiva de otimização: o cronograma da taxa de aprendizado interna, as regras de atualização do parâmetro de temperatura e os parâmetros do modelo, respectivamente. Experimentos sobre diferentes estratégias para cada componente iluminam como conduzir o treinamento do CLIP de forma mais eficiente. Finalmente, avaliamos o desempenho do FastCLIP e a linha de base de treinamento de última geração (OpenCLIP) em diferentes escalas computacionais, até 32 GPUs em 8 nós, e três escalas de dados variando de 2,7 milhões, 9,1 milhões a 315 milhões de pares de imagem-texto para demonstrar a melhoria significativa do FastCLIP em um cenário de recursos limitados. Liberamos o código do FastCLIP em https://github.com/Optimization-AI/fastclip.
Wei et al. (Mon,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: