Key points are not available for this paper at this time.
Neste trabalho, propomos uma estrutura para aprimorar as habilidades de comunicação de pacientes com dificuldades de fala em um ambiente de cuidados intensivos por meio da leitura labial. Procedimentos médicos, como a traqueostomia, fazem com que o paciente perca a capacidade de emitir fala com pouco ou nenhum impacto no movimento labial habitual. Consequentemente, desenvolvemos uma estrutura para prever o texto falado silenciosamente, realizando o reconhecimento visual da fala, ou seja, leitura labial. Em uma arquitetura de duas etapas, quadros do rosto do paciente são usados para inferir características de áudio como um alvo de previsão intermediária, que são então usados para prever o texto pronunciado. Até onde sabemos, esta é a primeira abordagem a trazer o reconhecimento visual da fala para um ambiente de cuidados intensivos. Para este propósito, gravamos um conjunto de dados audiovisuais na unidade de terapia intensiva (UTI) do Hospital Universitário de Aachen, com um corpus linguístico escolhido a dedo por clínicos experientes para ser representativo de sua rotina diária. Com uma taxa de erro de palavras de 6,3%, o sistema treinado atinge um desempenho geral suficiente para aumentar significativamente a qualidade da comunicação entre paciente e clínico ou familiares.
Laux et al. (Ter,) estudaram esta questão.