Key points are not available for this paper at this time.
Modelos de Linguagem de Grande Escala (LLMs) podem melhorar suas respostas quando instruídos a fazê-lo, uma capacidade conhecida como autocorreção. Quando essas instruções carecem de detalhes específicos sobre os problemas na resposta, isso é referido como aproveitar a capacidade intrínseca de autocorreção. O sucesso empírico da autocorreção pode ser encontrado em várias aplicações, por exemplo, desintoxicação de texto e mitigação de preconceitos sociais. No entanto, aproveitar essa capacidade de autocorreção pode não ser sempre eficaz, pois tem o potencial de revisar uma resposta inicialmente correta em uma incorreta. Neste artigo, nos esforçamos para entender como e por que o aproveitamento da capacidade de autocorreção é eficaz. Identificamos que instruções apropriadas podem guiar os LLMs a um estado de convergência, onde etapas adicionais de autocorreção não geram melhorias adicionais de desempenho. Demonstramos empiricamente que a incerteza do modelo e conceitos latentes ativados caracterizam conjuntamente a eficácia da autocorreção. Além disso, fornecemos uma formulação matemática indicando que o conceito latente ativado impulsiona a convergência da incerteza do modelo e o desempenho da autocorreção. Nossa análise também pode ser generalizada para os comportamentos de autocorreção observados em Modelos de Visão-Linguagem (VLMs). Além disso, destacamos que a desvio de preconceitos independente da tarefa pode se beneficiar de nosso princípio em termos de seleção de amostras eficazes de ajuste fino. Esse sucesso inicial demonstra o potencial de extensibilidade para melhor ajuste de instruções e alinhamento de segurança.
Liu et al. (Ter,) estudaram essa questão.