Видеогенератор Step-Video без ограничений на создание известных личностей

Не так давно появилась очередная новинка от китайских разработчиков, которая произвела фурор среди пользователей нейросетей. Компания StepFun представила модель Step-Video-T2V с 30 млрд. параметров. Она может создавать короткие видео длиной до 10 секунд по текстовому запросу пользователя — причем китайцы не стали устанавливать ограничения на использование внешности известных личностей в процессе генерации. Вы легко можете сгенерировать Илона Маска или Стива Джобса, создав видео с ними. Другие нейросети из-за внутренних ограничений этого делать не могут.
В чем отличие от аналогов?
Китайские разработчики постарались сделать все, чтобы проект превосходил разработки конкурентов. Для этого была проведена тщательная работа, призванная улучшить характеристики системы. В результате она отличается от аналогов по следующим параметрам.
- Масштабируемость. Система подходит для международного использования, хотя ней нужно приноровиться.
- Возможности глубокого сжатия видео. В системе реализована технология Video-VAE: это позволило добиться сжатия видео в 16x16 пространственно и в 8х временно. При этом ролик не проседает по качеству, сочная яркая картинка сохраняется.
- Использование метода DPO. Он применяется на финальной стадии обучения. В его основе лежит анализ предпочтений пользователей, понимание того, что им нравится. В результате удается получить красивые ролики, которые вызывают положительную реакцию со стороны аудитории. Дополнительно повышается уровень реалистичности, а количество артефактов, наоборот, снижается.
- Высокая производительность. Чтобы система могла нормально работать, должно присутствовать не менее 80 ГБ VRAM. Однако это того стоит. Итоговая генерация занимает около 743 секунд, что гораздо меньше, чем у аналогов. Кроме того, система работает с применением flash-attention.
В ближайшем будущем есть большой шанс, что модель ужмут до 24 Гб. Однако пока пользователи должны быть готовы к ожиданию. Из-за большого веса модели в процессе ее использования образуются очереди в среднем из 200 человек. Если вы хотите попробовать использовать Step-Video-T2V, нужно быть готовым к длительному ожиданию.
На какой стадии проект?
Пока пользователям доступна только демоверсия. Однако ее достаточно, чтобы изучить основной функционал и понять, как работать с системой. После тестирования разработчики планируют учесть обратную связь пользователей, исправить выявленные ошибки, а затем осуществить полномасштабный запуск. Пока точные даты нигде не указаны.
Что может модель?
Нейросеть создает короткие ролики продолжительностью до 10 сек. Генерация 1 видео занимает около 6 минут. Скорость работы зависит от вашего интернета, загруженности сервера, сложности запроса.
Запрос может быть максимально подробным. В промте удастся описать:
- персонажа, его эмоции;
- одежду героя видео;
- тип съемки;
- нюансы движений;
- надписи на поддерживаемых языках — они отобразятся в виде баннеров или плакатов.
Готовые ролики отличаются высоким качеством и выглядят профессионально.
Нейросеть работает только на китайском и английском. Вводить промты на других языках не получится. Однако это не значит, что пользоваться моделью в России не удастся. Вы без труда пройдете регистрацию, даже если используете русский номер и не меняете геолокацию. А вот дальше придется пользоваться переводчиком.
Сам сайт для РФ также не оптимизирован. По умолчанию он представлен на китайском языке. Но браузерного переводчика вполне хватит, чтобы разобраться, как работать с системой.
Как пройти регистрацию?
Чтобы создать профиль, зайдите на сайт демоверсии. Он отображается полностью на китайском языке. Для удобства воспользуйтесь браузерным автопереводом. Местами он кривой, однако в целом становится понятно, как работать с платформой.
Несмотря на то, что форма для ввода промта доступна всем, пользоваться системой без регистрации не получится. При попытке ввода запроса нейросеть предложит создать профиль.
Как уже говорилось, регистрация возможна с российского номера. Просто выберите код страны, а затем укажите его без 8. Однако есть нюансы. Код для подтверждения номера приходит в личные сообщения Телеграм. Если у вас нет профиля в системе, зарегистрироваться не удастся. По этой причине вводите только номер, с которым связан аккаунт в Телеграм.
Иногда возникают сложности. Так, у некоторых пользователей код страны не меняется. При попытке выбрать свой — ничего не происходит. Пока не понятно, как исправить ошибку. Если вы оказались в такой ситуации, используйте временный номер для регистрации. Он должен быть китайским. У этого способа есть минус — если что-то пойдет не так, восстановить доступ к профилю будет проблематично.
Как работать с системой?
Когда регистрация пройдена, можно начинать работу. Для этого достаточно ввести промтп на китайском или английском языке. Если вы попробуете писать на русском, система заменит кириллицу на латинские буквы.
Под формой отправки размещены готовые варианты запросов для вдохновения. Их можно менять, нажимая на кнопку с двумя линиями. В результате система предложит дополнительные варианты.
Когда запрос отправлен, остается лишь подождать. Система обработает обращение, а затем выдаст результат. Не всегда площадка корректно понимает, что нужно делать, поэтому иногда видео получаются оригинальными. Однако количество генераций не ограничено. Вы можете попробовать вновь, если в этом есть потребность.
Промпты и результат генерации
Система неплохо справляется как с простыми, так и со сложными запросами. Например, вот такой результат был получен по промту «Древний китаец произносит страстную речь во дворце, окруженном великолепными пейзажами».
Если усложнить запрос, можно получить более точный результат. Например, для генерации этого видео использован следующий промпт: «Пейзаж размыт и не в фокусе. Сбоку изображена девушка с длинными черными вьющимися волосами, в шали, красном берете и синем свитере, которая печатает за ноутбуком».
Как уже говорилось ранее, никаких ограничений на использование известных личностей нет. Например, удалось сгенерировать Эйнштейна, который проводит эксперименты в современном мире.
Вы можете указать кого угодно. Здесь все зависит от вашей фантазии.
Step-Video-T2V — это не только про реализм. Если нужно, можно создать фантастического персонажа. Вот что получилось по запросу «Эльф танцует в лесу, окруженный светлячками. Лунный свет просвечивает сквозь листья, медленно показывая легкость эльфа. Картина мечтательная и прекрасная».
Нейросеть позволяет попробовать себя в качестве режиссера фильмов или мультфильмов. Достаточно подробно прописать, как вы видите сцену. Для генерации этого отрывка использовался промпт «Ручная камера слежения скользит по коридорам космического корабля, фиксируя сосредоточенные выражения лиц астронавтов во время их работы. Камера показывает лицо астронавта, который смотрит в экран, крупным планом».
База готовых видео
Вы можете заранее посмотреть, на что способна система. Для этого на ее сайте размещена база готовых видео. Она находится под строкой для ввода промпта. Уже сейчас в ней довольно много файлов. Изучив их, можно посмотреть, как система справляется с генерацией:
- фильмов;
- мультиков;
- репортажных видео;
- художественных видео.
Система размещает все промты в открытом доступе. Если вам понравился ролик, можно легко скопировать запрос и попытаться создать то же самое. Причем в него допустимо внесение коррективов. Так вы легко адаптируете видео под свои потребности.
Видео также можно беспрепятственно скачивать со страницы или делиться ими с помощью ссылки.
Заключение
Таким образом, Step-Video-T2V — перспективный проект, который помогает создавать реалистичные видео по вашему запросу. Он может менять стиль ролика, генерировать как простые портретные, так и сложные сцены, в которых задействовано сразу несколько персонажей. Однако пока есть много ограничений. В частности, длина ролика не может быть больше 10 секунд. Кроме того, система создает только одну сцену. С ее помощью крайне трудно создать несколько последовательных видео в единой стилистике и с одними героями. Возможно, в ближайшем будущем проблему устранят, и пользователи получат мощный инструмент, который позволит создавать яркие сложные ролики.