Key points are not available for this paper at this time.
Dadas as recentes avanços na tecnologia de IA generativa, uma questão chave é como os grandes modelos de linguagem (LLMs) podem aprimorar as tarefas de modelagem acústica utilizando resultados de decodificação de texto de um modelo de reconhecimento automático de fala (ASR) congelado e pré-treinado. Para explorar novas capacidades na modelagem de linguagem para processamento de fala, introduzimos o desafio de correção de erros de transcrição de fala generativa (GenSEC). Este desafio compreende três tarefas de modelagem de linguagem pós-ASR: (i) correção de transcrição pós-ASR, (ii) marcação de falantes e (iii) reconhecimento de emoções. Essas tarefas visam emular futuros agentes baseados em LLM lidando com interfaces de voz, permanecendo acessíveis a um público amplo por meio da utilização de modelos de linguagem abertos pré-treinados ou APIs baseadas em agentes. Também discutimos insights a partir de avaliações de linha de base, bem como lições aprendidas para o design de futuras avaliações.
Yang et al. (Mon,) estudaram esta questão.