Key points are not available for this paper at this time.
Modelos de Linguagem Large (LLMs) alcançaram desempenho de ponta na geração zero-shot de resumos abstratos para artigos dados. No entanto, pouco se sabe sobre a robustez desse processo de resumo zero-shot. Para preencher essa lacuna, propomos a parafrase relevante, uma estratégia simples que pode ser usada para medir a robustez dos LLMs como sumarizadores. A abordagem de parafrase relevante identifica as sentenças mais relevantes que contribuem para gerar um resumo ideal e, em seguida, parafraseia essas entradas para obter um conjunto de dados minimamente perturbado. Assim, ao avaliar o desempenho do modelo para resumir tanto nos conjuntos de dados originais quanto nos perturbados, podemos avaliar um aspecto da robustez dos LLMs. Realizamos extensos experimentos com parafrase relevante em 4 conjuntos de dados diversos, assim como 4 LLMs de diferentes tamanhos (GPT-3.5-Turbo, Llama-2-13B, Mistral-7B e Dolly-v2-7B). Nossos resultados indicam que os LLMs não são sumarizadores consistentes para os artigos minimamente perturbados, necessitando de melhorias adicionais.
Askari et al. (Thu,) estudaram essa questão.