What type of study is this?

This is a Experimental Study study.

September 29, 2025Open Access

Uso do Feedback do Usuário para Ajuste Adaptativo de Modelos

Key Points

O ajuste adaptativo permite que modelos de linguagem melhorem em tempo real com base no feedback dos usuários, aumentando a precisão.
O estudo mostra que modelos que incorporam feedback dos usuários superam significativamente modelos estáticos nas métricas de preferência humana.
Utilizando métodos como fine-tuning supervisionado e aprendizado por reforço, o modelo alcança adaptação mais rápida sem perder integridade.
Desafios chave identificados incluem o manejo de riscos de privacidade e a mitigação de viés nas preferências dos usuários durante atualizações do modelo.

Abstract

Este artigo discute um caminho possível para o ajuste fino adaptativo de modelos de linguagem em grande escala por meio do aprendizado contínuo de sinais dos usuários. Em nosso estudo, tentamos organizar uma abordagem para canais explícitos e implícitos. Dentro do canal, ocorre filtragem heterogênea de feedback, interpretação e integração de todos eles em um ciclo regular de ajuste que ajudaria a manter o modelo atualizado e qualitativo no uso em tempo real. Este artigo valida essas afirmações com estudos de quão rapidamente parametrizações estáticas de modelos ficam obsoletas por um lado, e uma limitação observacional do processo offline clássico que reduz a precisão das respostas e a confiança do usuário por outro lado. Esta unificação é inovadora porque integra três classes de feedback em uma função de perda multiobjetivo com pesos dinâmicos; implementada por meio de uma arquitetura hierárquica de microsserviços que registra, transmite, filtra, anonimiza, anota dados — e depois treina em várias etapas incluindo fine-tuning supervisionado (SFT) e aprendizado por reforço a partir de feedback humano (RLHF), mais bandido contextual e teste A/B contínuo com limites de confiança. De fato, após várias iterações de SFT e RLHF, é o modelo ao vivo que consistentemente supera por uma boa margem todas as linhas de base estáticas em termos de preferência humana. Ao mesmo tempo, o bandido contextual reduz o arrependimento médio no modo online, e a escala para bilhões de consultas é alcançada sem perda da integridade dos metadados ou da flexibilidade de atualização. Desafios chave identificados incluem esquecimento catastrófico de habilidades raras, viés de preferência de grupos restritos, riscos de privacidade ao processar dados ao vivo e altos custos de anotação manual, para os quais são propostas soluções como regularização, amostragem estratificada, privacidade diferencial e aprendizado ativo de autoavaliação. Este artigo deve interessar e beneficiar aqueles que investigam e arquitetam sistemas para linguagem natural, aprendizado de máquina e mecanismos de recomendação.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper