January 5, 2017Open Access

Diariação de Fala Audio-Visual Baseada em Fusão Bayesiana Espaciotemporal

Key Points

Key points are not available for this paper at this time.

Abstract

A diação de falantes consiste em atribuir sinais de fala a pessoas envolvidas em um diálogo. Um modelo de diaração audio-visual espaciotemporal é proposto. O modelo é bem adequado para cenários desafiadores que consistem em vários participantes envolvidos em interações multiparte enquanto se movem e viram as cabeças em direção aos outros participantes, em vez de se voltarem para as câmeras e os microfones. O rastreamento visual de múltiplas pessoas é combinado com a localização de múltiplas fontes de fala para abordar o problema de associação de fala a pessoas. Este último é resolvido dentro de um novo método de fusão audio-visual com base nos seguintes fundamentos: características espectrais binaurais são inicialmente extraídas de um par de microfones, depois uma técnica de alinhamento audio-visual supervisionada mapeia essas características em uma imagem, e, finalmente, um método de agrupamento semi-supervisionado atribui características espectrais binaurais a pessoas visíveis. A principal vantagem desse método em relação a trabalhos anteriores é que ele processa de maneira principiada os sinais de fala proferidos simultaneamente por várias pessoas. A diaração em si é formulada em um modelo gráfico temporal de variável latente que infere identidades de falantes e turnos de fala, com base na saída de um processo de associação audio-visual, executado em cada fatia temporal, e na dinâmica da variável de diaração em si. A formulação proposta produz um procedimento de inferência exato e eficiente. Um novo conjunto de dados, que contém dados de treinamento audio-visuais, bem como vários cenários envolvendo vários participantes engajados em diálogos formais e informais, é introduzido. O método proposto é rigorosamente testado e avaliado em relação a vários algoritmos de diaração de ponta.

Bookmark

View Full Paper