Este artigo discute um caminho possível para o ajuste fino adaptativo de modelos de linguagem em grande escala por meio do aprendizado contínuo de sinais dos usuários. Em nosso estudo, tentamos organizar uma abordagem para canais explícitos e implícitos. Dentro do canal, ocorre filtragem heterogênea de feedback, interpretação e integração de todos eles em um ciclo regular de ajuste que ajudaria a manter o modelo atualizado e qualitativo no uso em tempo real. Este artigo valida essas afirmações com estudos de quão rapidamente parametrizações estáticas de modelos ficam obsoletas por um lado, e uma limitação observacional do processo offline clássico que reduz a precisão das respostas e a confiança do usuário por outro lado. Esta unificação é inovadora porque integra três classes de feedback em uma função de perda multiobjetivo com pesos dinâmicos; implementada por meio de uma arquitetura hierárquica de microsserviços que registra, transmite, filtra, anonimiza, anota dados — e depois treina em várias etapas incluindo fine-tuning supervisionado (SFT) e aprendizado por reforço a partir de feedback humano (RLHF), mais bandido contextual e teste A/B contínuo com limites de confiança. De fato, após várias iterações de SFT e RLHF, é o modelo ao vivo que consistentemente supera por uma boa margem todas as linhas de base estáticas em termos de preferência humana. Ao mesmo tempo, o bandido contextual reduz o arrependimento médio no modo online, e a escala para bilhões de consultas é alcançada sem perda da integridade dos metadados ou da flexibilidade de atualização. Desafios chave identificados incluem esquecimento catastrófico de habilidades raras, viés de preferência de grupos restritos, riscos de privacidade ao processar dados ao vivo e altos custos de anotação manual, para os quais são propostas soluções como regularização, amostragem estratificada, privacidade diferencial e aprendizado ativo de autoavaliação. Este artigo deve interessar e beneficiar aqueles que investigam e arquitetam sistemas para linguagem natural, aprendizado de máquina e mecanismos de recomendação.
Nilay Shah (Sun,) estudou esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: