February 15, 2024Open Access

Reconhecimento de Emoções na Fala Usando Modelos de Transferência de Aprendizado Profundo e Técnicas Explicáveis

Key Points

Key points are not available for this paper at this time.

Abstract

Este estudo visa estabelecer uma maior confiabilidade em comparação com estudos convencionais de reconhecimento de emoções na fala (SER). Isso é alcançado por meio de técnicas de pré-processamento que reduzem elementos de incerteza, modelos que combinam as características estruturais de cada modelo e a aplicação de várias técnicas explicativas. A capacidade de interpretação pode ser tornada mais precisa reduzindo dados de aprendizagem incertos, aplicando dados em diferentes ambientes e aplicando técnicas que explicam o raciocínio por trás dos resultados. Projetamos um modelo generalizado usando três conjuntos de dados diferentes, e cada fala foi convertida em uma imagem de espectrograma através do pré-processamento STFT. O espectrograma foi dividido no domínio do tempo com sobreposição para corresponder ao tamanho de entrada do modelo. Cada seção dividida é expressa como uma distribuição Gaussiana, e a qualidade dos dados é investigada pelo coeficiente de correlação entre distribuições. Como resultado, a escala dos dados é reduzida e a incerteza é minimizada. VGGish e YAMNet são as redes de aprendizado profundo pré-treinadas mais representativas frequentemente usadas em conjunto com o processamento de fala. Ao lidar com o processamento do sinal de fala, é frequentemente vantajoso usar esses modelos pré-treinados sinergicamente em vez de exclusivamente, resultando na construção de redes profundas de conjunto. E finalmente, vários modelos explicáveis (Grad CAM, LIME, sensibilidade à oclusão) são utilizados na análise dos resultados classificados. O modelo apresenta adaptabilidade a vozes em vários ambientes, produzindo uma precisão de classificação de 87%, superando a de modelos individuais. Além disso, os resultados de saída são confirmados por um modelo explicável para extrair áreas emocionais essenciais, convertidas em arquivos de áudio para análise auditiva usando Grad CAM no domínio do tempo. Através deste estudo, aprimoramos a incerteza das áreas de ativação geradas pelo Grad CAM. Conseguimos isso aplicando a capacidade interpretativa de estudos anteriores, juntamente com modelos de pré-processamento e fusão eficazes. Podemos analisá-lo a partir de uma perspectiva mais diversa através de outras técnicas explicáveis.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper