Key points are not available for this paper at this time.
Modelos de linguagem grandes (LLMs) têm atraído grande atenção devido ao seu forte desempenho em uma ampla gama de tarefas de NLP. Na prática, os usuários muitas vezes esperam que os textos gerados caiam dentro de um intervalo de comprimento específico, tornando a geração controlada por comprimento um tópico importante, especialmente para modelos do tipo GPT. Os métodos existentes de controle de comprimento focam principalmente em um tipo simples de controle de "igual a" um comprimento-alvo. Diferente deles, propomos um método baseado em prompt para alcançar a geração controlada por comprimento sob diferentes tipos de controle com alta precisão. Em particular, adotamos aprendizado por reforço (RL) e filtragem de amostras com o sinal de recompensa fornecido por modelos de recompensa baseados em regras, que aprimoram a capacidade de controle de comprimento dos modelos ao recompensar saídas que seguem certas instruções de controle. Além disso, introduzimos um extrator de prompt padrão para analisar a entrada de usuários arbitrários em instruções de controle padrão. Experimentos mostram que nosso método melhora significativamente a precisão do controle de comprimento baseado em prompt em conjuntos de dados populares de sumarização como CNNDM e NYT sob múltiplos tipos de controle. Além disso, tanto o extrator de prompt padrão quanto o modelo ajustado por RL mostram forte generalização para novos templates de prompt de controle.
Jie et al. (Ter,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: