Los puntos clave no están disponibles para este artículo en este momento.
Los enfoques audio-visuales que involucran entradas visuales han sentado las bases para los recientes avances en la separación del habla. Sin embargo, la optimización del uso concurrente de entradas auditivas y visuales sigue siendo un área de investigación activa. Inspirados en el circuito cortico-tálamo-cortical, en el que los mecanismos de procesamiento sensorial de diferentes modalidades se modulan entre sí a través del tálamo sensorial no lemniscal, proponemos una nueva red neuronal cortico-tálamo-cortical (CTCNet) para la separación del habla audio-visual (AVSS). Primero, el CTCNet aprende representaciones auditivas y visuales jerárquicas de manera ascendente en subredes auditivas y visuales separadas, imitando las funciones de las áreas corticas auditivas y visuales. Luego, inspirado en el gran número de conexiones entre regiones corticales y el tálamo, el modelo fusiona la información auditiva y visual en una subred tálamica a través de conexiones descendentes. Finalmente, el modelo transmite esta información fusionada de vuelta a las subredes auditivas y visuales, y este proceso se repite varias veces. Los resultados de experimentos en tres conjuntos de datos de referencia de separación del habla muestran que el CTCNet supera notablemente a los métodos existentes de AVSS con considerablemente menos parámetros. Estos resultados sugieren que imitar el conectoma anatómico del cerebro mamífero tiene un gran potencial para avanzar en el desarrollo de redes neuronales profundas.
Li et al. (Mar,) estudiaron esta cuestión.