Key points are not available for this paper at this time.
Die Ankunft von Sora markiert eine neue Ära für Text-zu-Video-Diffusionsmodelle und bringt bedeutende Fortschritte in der Videoerzeugung und potenziellen Anwendungen mit sich. Sora sowie andere Text-zu-Video-Diffusionsmodelle sind jedoch stark auf die Prompts angewiesen, und es gibt kein öffentlich verfügbares Dataset, das eine Studie zu Text-zu-Video-Prompts beinhaltet. In diesem Papier stellen wir VidProM vor, das erste groß angelegte Dataset mit 1,67 Millionen einzigartigen Text-zu-Video-Prompts von echten Nutzern. Darüber hinaus umfasst das Dataset 6,69 Millionen Videos, die von vier hochmodernen Diffusionsmodellen generiert wurden, sowie einige zugehörige Daten. Zunächst demonstrieren wir die Zusammenstellung dieses groß angelegten Datasets, die ein zeitaufwendiger und kostspieliger Prozess ist. Anschließend zeigen wir, wie sich das vorgeschlagene VidProM von DiffusionDB, einem groß angelegten Prompt-Galerie-Dataset für die Bildgenerierung, unterscheidet. Basierend auf der Analyse dieser Prompts identifizieren wir die Notwendigkeit eines neuen Prompt-Datasets, das speziell für die Text-zu-Video-Generierung entwickelt wurde, und gewinnen Erkenntnisse über die Vorlieben echter Nutzer bei der Erstellung von Videos. Unser groß angelegtes und vielfältiges Dataset inspiriert auch viele aufregende neue Forschungsbereiche. Um zum Beispiel bessere, effizientere und sicherere Text-zu-Video-Diffusionsmodelle zu entwickeln, schlagen wir vor, die Text-zu-Video-Prompt-Engineering, die effiziente Videoerzeugung und die Video-Kopier-Erkennung für Diffusionsmodelle zu erkunden. Wir stellen das gesammelte Dataset VidProM öffentlich auf GitHub und Hugging Face unter der CC-BY-NC 4.0 Lizenz zur Verfügung.
Wang et al. (Sun,) untersuchten diese Frage.