Key points are not available for this paper at this time.
Estudos recentes demonstraram o potencial promissor do ChatGPT para várias tarefas de anotação e classificação de texto. No entanto, o ChatGPT é não determinístico, o que significa que, assim como com codificadores humanos, entradas idênticas podem levar a saídas diferentes. Diante disso, parece apropriado testar a confiabilidade do ChatGPT. Portanto, este estudo investiga a consistência das capacidades de zero-shot do ChatGPT para anotação e classificação de texto, com foco em diferentes parâmetros do modelo, variações de prompts e repetições de entradas idênticas. Com base na tarefa de classificação do mundo real de diferenciar textos de sites em notícias e não notícias, os resultados mostram que a consistência na saída de classificação do ChatGPT pode ficar aquém dos limites científicos para confiabilidade. Por exemplo, mesmo pequenas alterações na redação dos prompts ou a repetição da mesma entrada podem levar a saídas variadas. Embora agrupar saídas de múltiplas repetições possa melhorar a confiabilidade, este estudo aconselha cautela ao usar o ChatGPT para anotação de texto zero-shot e enfatiza a necessidade de uma validação completa, como a comparação com dados anotados por humanos. A aplicação não supervisionada do ChatGPT para anotação e classificação de texto não é recomendada.
Michael Reiss (Mon,) estudou esta questão.