Key points are not available for this paper at this time.
Os Modelos de Linguagem Multimodais (LLMs) em rápida evolução requerem urgentemente novas referências para avaliar uniformemente seu desempenho na compreensão e descrição textual da música. No entanto, devido a lacunas semânticas entre algoritmos de Recuperação de Informação Musical (MIR) e a compreensão humana, discrepâncias entre profissionais e o público, e baixa precisão das anotações, os conjuntos de dados existentes de descrição musical não podem servir como referências. Para isso, apresentamos o MuChin, o primeiro referencial de descrição musical de código aberto na linguagem coloquial chinesa, projetado para avaliar o desempenho de LLMs multimodais na compreensão e descrição da música. Estabelecemos a Plataforma de Anotação Musical Caichong (CaiMAP), que emprega um método inovador de garantia multi-pessoa e multi-estágio, e recrutamos tanto amadores quanto profissionais para garantir a precisão das anotações e alinhamento com a semântica popular. Utilizando este método, construímos um conjunto de dados em larga escala, privado, com anotações musicais multidimensionais e de alta precisão, o Conjunto de Dados Musical Caichong (CaiMD), e selecionamos cuidadosamente 1.000 entradas de alta qualidade para servir como o conjunto de testes para o MuChin. Com base no MuChin, analisamos as discrepâncias entre profissionais e amadores em termos de descrição musical, e demonstramos empiricamente a eficácia do CaiMD para ajuste fino de LLMs. Por fim, utilizamos o MuChin para avaliar os modelos existentes de compreensão musical em sua capacidade de fornecer descrições coloquiais da música.
Wang et al. (Fri,) estudaram essa questão.