November 5, 2016Open Access

LipNet: End-to-End Satzebene Lippenlesen

Key Points

Key points are not available for this paper at this time.

Abstract

Das Lippenlesen ist die Aufgabe, Text aus der Bewegung des Mundes eines Sprechers zu entschlüsseln. Traditionelle Ansätze trennten das Problem in zwei Phasen: das Entwerfen oder Lernen visueller Merkmale und die Vorhersage. Neuere tiefgreifende Lippenleseansätze sind end-to-end trainierbar (Wand et al., 2016; Chung & Zisserman, 2016a). Bestehende Arbeiten an end-to-end trainierten Modellen führen jedoch nur eine Wortklassifikation durch, anstatt eine Satzebene Sequenzvorhersage. Studien haben gezeigt, dass die Lippenleseleistung von Menschen bei längeren Wörtern zunimmt (Easton & Basala, 1982), was die Bedeutung von Merkmalen, die den zeitlichen Kontext in einem mehrdeutigen Kommunikationskanal erfassen, verdeutlicht. Motiviert durch diese Beobachtung präsentieren wir LipNet, ein Modell, das eine variablere Länge von Videobildern in Text umwandelt, wobei spatiotemporale Faltungen, ein rekurrentes Netzwerk und der konnektionistische zeitliche Klassifikationsverlust verwendet werden, der vollständig end-to-end trainiert wird. Nach unserem Wissen ist LipNet das erste end-to-end Modell für das Lippenlesen auf Satzebene, das gleichzeitig spatiotemporale visuelle Merkmale und ein Sequenzmodell erlernt. Im GRID-Korpus erreicht LipNet eine Genauigkeit von 95,2% in der Satzebene, überlappenden Sprecheraufteilung, outperforming erfahrene menschliche Lippenleser und die vorherige 86,4% Wortebene Stand der Technik Genauigkeit (Gergen et al., 2016).

Bookmark

View Full Paper