Key points are not available for this paper at this time.
Grandes modelos pré-treinados, como o GPT-3, tiveram um impacto tremendo no processamento de linguagem natural moderno, aproveitando o aprendizado auto-supervisionado para aprender representações salientes que podem ser facilmente ajustadas para uma ampla variedade de tarefas subsequentes. Investigamos a possibilidade de transferir esses avanços para o aprendizado de máquina molecular, construindo um modelo fundamental químico, ChemBERTa-2, utilizando a linguagem dos SMILES. Embora dados rotulados para tarefas de previsão molecular sejam geralmente escassos, bibliotecas de cadeias SMILES estão prontamente disponíveis. Neste trabalho, baseamos nosso estudo no ChemBERTa, otimizando o processo de pré-treinamento. Comparamos o pré-treinamento multitarefa e auto-supervisionado, variando hiperparâmetros e o tamanho do conjunto de dados de pré-treinamento, até 77 milhões de compostos do PubChem. Para nosso conhecimento, o conjunto de 77 milhões constitui um dos maiores conjuntos de dados usados para pré-treinamento molecular até o momento. Descobrimos que com essas melhorias no pré-treinamento, somos competitivos com as arquiteturas de última geração existentes no conjunto de benchmark MoleculeNet. Analisamos o grau em que as melhorias no pré-treinamento se traduzem em melhorias nas tarefas subsequentes.
Ahmad et al. (Mon,) estudaram essa questão.