Key points are not available for this paper at this time.
A distorção de tempo dinâmica (DTW) provou ser um método extremamente eficaz tanto para alinhar quanto para corresponder gravações de música a transcrições MIDI correspondentes. No entanto, seu desempenho é fortemente afetado por fatores como a representação utilizada para os dados de áudio e MIDI e seus parâmetros ajustáveis. Portanto, investigamos a otimização automática do design de sistemas de alinhamento e correspondência baseados em DTW. Nossa abordagem utiliza otimização bayesiana para ajustar o design do sistema e parâmetros sobre um conjunto de dados criado sinteticamente de pares de áudio e MIDI. Em seguida, realizamos uma busca exaustiva sobre técnicas de normalização de pontuações DTW para encontrar o método ideal para relatar uma pontuação de confiança de alinhamento confiável, conforme requerido em tarefas de correspondência. Isso resulta em um sistema baseado em DTW que é conceitualmente simples e altamente preciso tanto em alinhamento quanto em correspondência. Verificamos que este sistema alcança alto desempenho em uma avaliação qualitativa em grande escala de alinhamentos do mundo real.
Raffel et al. (Ter,) estudaram esta questão.