What type of study is this?

This is a Experimental Study study.

October 2, 2025Open Access

Extração de Características e Direcionamento para Aprimorar o Raciocínio em Cadeia de Pensamentos em Modelos de Linguagem

Key Points

Uma nova técnica de direcionamento melhora significativamente as capacidades de raciocínio dos modelos de linguagem sem requerer conjuntos de dados externos.
Tanto os algoritmos de direcionamento baseados em autoencoders esparsos quanto os livres de SAE melhoram o desempenho em problemas complexos de raciocínio.
O método extrai características interpretáveis da cadeia de pensamentos comum para direcionar efetivamente os estados internos dos modelos de linguagem.
Resultados experimentais mostram melhorias significativas em tarefas de raciocínio, sugerindo aplicações práticas em diversos domínios.

Abstract

Grandes Modelos de Linguagem (LLMs) demonstram a capacidade de resolver problemas de raciocínio e matemáticos usando a técnica de Cadeia de Pensamentos (CoT). Expansões na duração da CoT, como visto em modelos como DeepSeek-R1, melhoram significativamente esse raciocínio para problemas complexos, mas requerem dados longos de CoT de alta qualidade e caros, além de ajuste fino. Este trabalho, inspirado pelo paradigma de pensamento profundo do DeepSeek-R1, utiliza uma técnica de direcionamento para melhorar a capacidade de raciocínio de um LLM sem conjuntos de dados externos. Nosso método primeiro emprega Autoencoders Esparsos (SAEs) para extrair características interpretáveis da CoT comum. Essas características são então usadas para direcionar os estados internos do LLM durante a geração. Reconhecendo que muitos LLMs não possuem SAEs pré-treinados correspondentes, introduzimos ainda um novo algoritmo de direcionamento livre de SAE, que calcula diretamente as direções de direcionamento a partir das ativações residuais de um LLM, eliminando a necessidade de um SAE explícito. Resultados experimentais demonstram que tanto nossos algoritmos de direcionamento baseados em SAE quanto os subsequentes livres de SAE melhoram significativamente as capacidades de raciocínio dos LLMs.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper