Com o rápido avanço da inteligência artificial (IA), os modelos de linguagem de grande escala (LLMs) tornaram-se a infraestrutura fundamental para a pesquisa em processamento de linguagem natural (NLP) e aplicações industriais. Ao aproveitar parâmetros massivos e vastos dados de pré-treinamento, os LLMs melhoraram significativamente a compreensão de texto, a geração e as capacidades de raciocínio cross-modal. Este artigo revisa sistematicamente a evolução técnica dos LLMs, desde modelos estatísticos de n-gramas até a arquitetura Transformer, com base em cinco artigos-chave de revisão. Analisa paradigmas de treinamento e alinhamento, como pré-treinamento em segundo lugar, fortalecimento do alinhamento de valores e controles de segurança; terceiro, exploração de esquemas de compressão e inferência de modelos verdes e eficientes; e quarto, aproveita a colaboração interdisciplinar para construir a próxima geração de sistemas inteligentes de uso geral que sejam justos e sustentáveis.
Zihan Zhou (Quarta-feira,) estudou essa questão.