Apesar dos notáveis sucessos dos grandes modelos de linguagem (LLMs), a arquitetura subjacente do Transformer possui limitações inerentes em lidar com tarefas de raciocínio complexo. O prompting de cadeia de pensamento (CoT) surgiu como uma solução prática, mas a maioria dos métodos baseados em CoT depende de um único prompt genérico, como "pense passo a passo", sem adaptação específica da tarefa. Essas abordagens esperam que o modelo descubra um caminho de raciocínio eficaz por conta própria, forçando-o a pesquisar em um vasto espaço de prompts. Em contraste, vários estudos exploraram designs de prompts específicos da tarefa para aumentar o desempenho. No entanto, esses designs são tipicamente desenvolvidos por tentativa e erro, carecendo de fundamentação teórica. Como resultado, a engenharia de prompts permanece em grande parte ad hoc e não guiada. Neste artigo, fornecemos uma estrutura teórica que explica por que alguns prompts têm sucesso enquanto outros falham. Mostramos que os prompts funcionam como seletores, extraindo informações relevantes para a tarefa do estado oculto completo do modelo durante o raciocínio CoT. Cada prompt define uma trajetória única através do espaço de respostas, e a escolha da trajetória é crucial para o desempenho da tarefa e a navegação futura dentro do espaço. Analisamos a complexidade de encontrar prompts ótimos e caracterizamos o tamanho do espaço de prompts para uma determinada tarefa. Nossa teoria revela princípios por trás do design eficaz de prompts e mostra que prompts ingênuos que usam CoT, como "pense passo a passo", podem prejudicar severamente o desempenho. Através de experimentos, mostramos que a pesquisa de prompts ótimos pode levar a uma melhoria de mais de 50% em tarefas de raciocínio, fornecendo uma base teórica para a engenharia de prompts.
Zhang et al. (Qui,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: