Key points are not available for this paper at this time.
Les transformeurs préentrainés à grande échelle ont marqué des jalons dans la génération de texte (GPT-3) et de texte à image (DALL-E et CogView). Son application à la génération vidéo fait encore face à de nombreux défis : Le coût de calcul potentiellement énorme rend l'entraînement depuis zéro inabordable ; La rareté et la faible pertinence des ensembles de données texte-vidéo entravent la compréhension par le modèle des sémantiques complexes de mouvement. Dans ce travail, nous présentons le transformeur CogVideo avec 9 milliards de paramètres, entraîné en héritant d'un modèle préentrainé de texte à image, CogView2. Nous proposons également une stratégie d'entraînement hiérarchique à plusieurs taux de trame pour mieux aligner le texte et les clips vidéo. En tant que (probablement) le premier modèle open-source de génération vidéo à partir de texte préentrainé à grande échelle, CogVideo surpasse tous les modèles disponibles publiquement de manière significative dans les évaluations machine et humaine.
Hong et al. (Sun,) ont étudié cette question.