OpenAI представила новую нейросеть Sora для генерации видео. Компания утверждает, что Sora «может создавать реалистичные и фантазийные сцены по текстовым инструкциям». Модель преобразования текста в видео позволяет пользователям создавать на базе текстовых описаний фотореалистичные видео длиной до минуты с разрешением Full HD (1920 × 1080 точек).
Sora — это диффузионная модель, которая способна «создавать сложные сцены с несколькими персонажами, определенными типами движения и точными деталями объекта и фона». На сайте проекта сказано, что модель умеет понимать подсказки и знает, как ведут себя различные объекты в физическом мире, а также «точно интерпретировать реквизит и генерировать убедительных персонажей, выражающих яркие эмоции».
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
Что важно, так это тот факт, что Sora генерирует целое видео сразу, а не покадрово. Это помогает избежать того, что было проблемой при использовании других