Key points are not available for this paper at this time.
Este artigo aborda os desafios conceituais, metodológicos e técnicos na study dos modelos de linguagem de grande escala (LLMs) e dos textos que eles produzem a partir de uma perspectiva de linguística quantitativa. Baseia-se em um quadro teórico que distingue o LLM como um substrato e as entidades que o modelo simula. O artigo defende uma abordagem estritamente não antropomórfica para os modelos, ao mesmo tempo em que aplica cautelosamente metodologias usadas no estudo do comportamento linguístico humano às entidades simuladas. Enquanto os pesquisadores em processamento de linguagem natural se concentram nos próprios modelos, sua arquitetura, avaliação e métodos para melhorar o desempenho, nós, como linguistas quantitativos, devemos nos esforçar para construir uma teoria robusta sobre as características dos textos produzidos por LLMs, como eles diferem dos textos produzidos por humanos e as propriedades das entidades simuladas. Além disso, devemos explorar o potencial dos LLMs como um instrumento para estudar a cultura humana, da qual a linguagem é uma parte integral.
Jiří Milička (qui,) estudou esta questão.