Key points are not available for this paper at this time.
Wir präsentieren MikeTalk, einen Text-zu-audiovisuellen Sprachsynthesizer, der Eingabetext in einen audiovisuellen Sprachstream umwandelt. MikeTalk basiert auf Visemen, die eine Reihe von Bildern darstellen, die eine große Bandbreite an Mundformen abdecken. Die Viseme werden aus einem aufgezeichneten visuellen Korpus eines menschlichen Subjekts gewonnen, das speziell entworfen wurde, um eine Instanziierung jedes Visems hervorzurufen. Mittels optischer Flussmethoden wird automatisch die Korrespondenz von jedem Visem zu jedem anderen Visem berechnet. Durch Morphing entlang dieser Korrespondenz kann ein sanfter Übergang zwischen den Visemen-Bildern erzeugt werden. Eine vollständige visuelle Äußerung wird durch die Verkettung von Visemen-Übergängen konstruiert. Schließlich werden Phonem- und Zeitinformationen, die aus einem Text-zu-Sprache-Synthesizer extrahiert wurden, genutzt, um zu bestimmen, welche Visemübergänge verwendet werden sollen und mit welcher Geschwindigkeit der Morphing-Prozess stattfinden sollte. Auf diese Weise sind wir in der Lage, den visuellen Sprachstream mit dem audiovisuellen Sprachstream zu synchronisieren und somit den Eindruck eines fotorealistischen sprechenden Gesichts zu vermitteln.
Ezzat et al. (Wed,) haben diese Frage untersucht.