Нейросети для генерации видео в арбитраже: обзор VEO3, Sora и китайских моделей

В арбитраже видео всегда было сильнейшим инструментом: динамика, эмоции и возможность показать продукт и ЦА «вживую» делают конверсии выше. Баннеры и фото еще можно быстро наклепать, но видео требует сценария, актеров, монтажа. Когда у тебя десятки связок на запуске, каждая такая задержка превращается в упущенные деньги. Здесь и появляются генеративные модели. Вопрос в том, могут ли они полностью закрывать вопрос продакшна для арбитражных команд? Отвечу сразу — нет! Но они уже могут помогать с отдельными сценами и графикой. Так что тут не стоит строить иллюзий.

Но в последние месяцы рынок ощутимо качнуло — появились видеогенеративные нейросети, которые позволяют делать креативы без съемок и студийных затрат. А главное — некоторые теперь сразу синхронизируют речь и губы (проще говоря накладывают липсинг по дефолту). Сейчас я параллельно пишу материал с примерами того, что гуляет по спаям из под руки одной из нейросетей. Как только я его опубликую — тут будет ссылка. Ну а пока давайте я вам сделаю небольшой экскурс по тем инструментам, которые доступны сегодня рядовому арбитрану.

P.S. Напомню, что больше контента про арбитраж трафика вы найдете на моем канале @ARBI_TRAFFIC.

Как работают нейросети для генерации видео и где они спотыкаются

Основной принцип одинаков: берем промпт (описание сцены), подгружаем картинку или кадр и модель достраивает движение. Но артефактов пока море — лишние руки, застывшие фоны, перекошенные лица. Тем не менее оставлю небольшой гайд для понимания как все устроено на примере VEO3:

Первое, что нужно для старта — настроить доступ. Так как ChatGPT и Google VEO 3 недоступны в ряде стран напрямую, уверен, вы знаете что нужно делать. Без этого шага у вас просто не откроются нужные инструменты. Как получить доступ к VEO3 — вот гайд от CPA LENTA:

Ссылка на Flow тут.

Дальше определяем базовый набор сервисов. Вам понадобятся три главных инструмента:

ChatGPT для работы с текстом и промтами.
Midjourney (или другой генератор изображений) для подготовки визуальной основы.
Сам Veo 3 от Google — именно в его модуле Flow происходит превращение текста в видео.

Работа начинается с идеи. Нужно придумать концепцию видео и подобрать подходящий референс — картинку или кадр, который задаст стиль (тут аналогично рекомендую этот мой материал, так как идеи у рефов очень годные). Это может быть скриншот, фото или даже картинка из интернета. Главное, чтобы она отражала настроение и композицию будущего видео.

Дальше включается связка ChatGPT и Midjourney. Сначала просите ChatGPT описать ваш референс и превратить его в промт для Midjourney, добавив детали: замену персонажей, изменение фона или эмоций. Затем в Midjourney генерируете картинки. Здесь важно «выбить» максимально подходящий кадр, потому что дальнейшая генерация видео в Veo стоит дороже. Вот кстати как создавалось знаменитое видео с бабулями на самокатах.

Когда изображение готово, снова идем в ChatGPT. Теперь задача — адаптировать промт под видео. Добавьте движения, позицию камеры, даже реплики персонажей. Например: «оператор снимает от первого лица, бабушки едут на самокатах и громко кричат». Такой уточненный промт нужен, чтобы Veo 3 понимал динамику сцены, а не просто строил статичную анимацию.

После этого можно переходить в VEO 3. В разделе Flow создается новый проект и выбирается режим «текст в видео». Генерация в Veo 3 дороже, чем во второй версии, но качество и возможности выше. На выходе получаете ролик, который можно корректировать, если результат не устраивает — просто редактируете промт и запускаете еще раз.

Чтобы собрать длинное видео, процесс повторяется несколько раз — создаются отдельные сцены. Их скачивают в оригинале, а затем апскейлят для улучшения качества. Важно помнить: апскейл убирает звук, поэтому аудио придется сохранить из оригинала и потом наложить в монтажке.

И если вы думали, что на этом все — нет, все равно надо уметь в монтаж. В любой удобной программе (Premiere, CapCut, DaVinci) склеиваете сцены и звук, при необходимости меняете формат под TikTok или Instagram.

Кто сейчас есть на рынке AI

Теперь давайте поговорим про океан разнообразия нейронок. Каждая из них имеет свою специфику, сильные и слабые стороны. Часть я специально опущу, потому что они вообще не заслуживают внимания (ИМХО):

VEO 3 — на данный момент считается одним из самых сбалансированных инструментов. Он хорошо держит композицию сцены: объекты остаются на местах, фон не плывет, а динамика выглядит естественно. Да, есть проблемы с лицами второстепенных героев — иногда они выглядят пластиковыми или искаженными, — но при этом главный персонаж обычно отрабатывается чисто. Скорость генерации и предсказуемость результата здесь на уровне, поэтому Veo 3 активно используют для рабочих креативов. Минус — подписка стоит дорого, и каждое видео обходится ощутимее, чем у конкурентов. Зато за эти деньги вы получаете стабильность, которую сложно найти у других моделей.
Sora — встроен прямо в ChatGPT, и это делает его очень удобным для быстрых экспериментов. Здесь нет жестких лимитов на количество генераций, можно пробовать десятки вариаций подряд. Но качество пока нестабильное: модель часто «фантазирует» и ломает анатомию — появляются лишние руки, перекошенные позы или странные движения. В динамике сцены могут выпадать детали — например, персонаж держит предмет, а через секунду он исчезает. Поэтому для боевых креативов Sora используют редко, но для поиска идей и проверки гипотез инструмент подходит идеально.
Китайские модели (Wan, Vidu и аналоги) — активно набирают популярность за счет доступности. Они дают много бесплатных или очень дешевых кредитов, что позволяет генерировать сотни роликов подряд без серьезных затрат. Да, качество заметно уступает топовым игрокам — движения дерганые, фон часто плоский, лица с артефактами. Но именно за счет объема эти сервисы используют под тизерные кампании, «грязные» вертикали и быстрые PWA-воронки, где от креатива требуется поток, а не идеальная картинка. Их главный плюс — возможность быстро тестировать десятки идей без риска потерять бюджет.
Pixverse, Higgsfield и другие — молодые игроки стараются занять нишу между качеством и скоростью. Иногда они попадают в промт очень точно и выдают действительно красивые сцены, которые выглядят живо и убедительно. Но стабильности пока не хватает — на выходе может получиться как реалистичный ролик, так и сюрреалистичный набор кадров, не всегда применимый в рекламе. Такие решения чаще пробуют команды, которым важна именно скорость и массовость тестов. Они подходят для создания потока креативов, где часть будет «кринжовой», но какая-то доля окажется рабочей и даст нужные клики.

В итоге картина такая: VEO 3 — это про качество и надежность, но дорого, Sora — про эксперименты и поиск идей, китайские модели — про объем и низкую цену, Pixverse и Higgsfield — про скорость с риском непредсказуемости. То есть в переводе на русский — если нужно 2-3 качественных креатива для теста оффера, лучше идти в Veo. Если цель — наштамповать сотню простых роликов под тизерку, выгоднее использовать китайские сервисы.

Как-то так. С вами был автор канала @ARBI_TRAFFIC. Если интересно обсудить эту тему — пишите в комменты в блоге — я обязательно отвечу. Буду рад подписке, пока!