Поиск в MDM

Бюллетень

Поле генерации СМИ через искусственный интеллект (ИИ) развивается головокружительным темпом, и генерация видео стала одной из самых активных и конкурентных границ. В этом контексте Google представил, что я вижу 2, эволюцию ее модели, которую я вижу 1 и ее флагманское предложение о конкуренции в этом новом пространстве. Разработанный Google DeepMind, я вижу, что 2 позиционируется как модель последнего поколения, предназначенная для создания высококачественных и реалистичных видеороликов, с целью предложения «беспрецедентного творческого контроля».

Прибытие Vie 2 происходит в момент интенсивной конкуренции, с ключевыми актерами, такими как Openai Sora, Runway, Kling и другие, пропагандирующие инновации с замечательной скоростью. Google утверждает, что я вижу, что 2 переопределяет качество и контроль в генерации видео от ИИ, с потенциалом значительно преобразовать творческие рабочие процессы в различные отрасли.

Эта статья вводит вас в подробный анализ Google, я вижу 2. Мы изучаем ее доступность через различные платформы Google, его технические характеристики и ключевые улучшения в отношении его предшественника, я вижу 1. Мы также рассматриваем текущие ограничения модели, выполняя сравнительный анализ с I See 1 и соответствующими конкурентами, с мнениями первоначальных экспертов и пользователей, оценивая подход Google Google и обезболивающие. 

Доступ я вижу 2: платформы, цены и доступность

Стратегия запуска Google, чтобы увидеть 2, характеризуется постепенным и фрагментированным развертыванием. Это началось с частных прогнозов для создателей и отобранных кинематографистов и постепенно расширяется через различные продукты и платформы Google. Ключевой датой стала объявление о его доступности 15 апреля 2025 года для Advanced Users Gemini.

В настоящее время есть несколько маршрутов для доступа, я вижу 2, каждый со своими характеристиками и ограничениями:

  • Gemini API / Vertex AI: Это основной путь для разработчиков и бизнес -клиентов, которые стремятся интегрировать, я вижу 2 в своих собственных приложениях. Считается, что он готов к производству. Доступ требует клавиш API, и для определенных расширенных функций, таких как конкретное камерное издание или элементы управления, может потребоваться быть в списке разрешенных пользователей. Такие компании, как WPP, Agoda, Mondelez и Poe, уже используют или тестируют, я вижу 2 через AI Vertex.
  • Google AI Studio: предлагает для разработчиков экспериментальную среду для проверки возможностей I See 2. Первоначальный доступ, как правило, бесплатный, но подлежит очень строгим квотам использования.
  • VideoFX (Google Labs): это экспериментальный инструмент, предназначенный для создателей, доступный через Google Labs. Это требует регистрации в списке ожидания. Первоначально ранний доступ был ограничен пользователями старше 18 лет в США, хотя Google планирует расширить доступ.
  • Gemini Advanced: я вижу, что 2 интегрируется как функция для подписчиков премиального плана Google One AI. Он позволяет генерировать 8 -секундные видео с разрешением 720p, с лимии ежемесячного использования, не определенными явно (указано, что мы будем уведомлены, когда мы достигнем предела). Это глобально доступно в странах и языках, где поддерживаются приложения Близнецов.
  • Взбейте Animate (Google Labs): эта экспериментальная функция, также в Google Labs, я вижу 2 для преобразования статических изображений в 8 -секундные анимированные видеоклипы. Он доступен для подписчиков Google One AI Premium в более чем 60 странах.
  • Шорты на YouTube (экрана мечты): Интеграция VAS 2 на шортах на YouTube реализуется с помощью функции экрана мечты. Это позволит создателям генерировать уникальные видео фонда через ИИ или даже создавать независимые видеоклипы из текстовых подсказок. Первоначальное развертывание будет сделано в США, Канаде, Австралии и Новой Зеландии.

Что касается различных цен, они значительно различаются между этими платформами:

  • API/Vertex AI: стоимость основана на сгенерированном видео. Источники указывают цены от 0,35 до 0,50 долл. США в секунду. Это эквивалентно 21-30 долл. США в минуту или 1260–1800 долл. США в час сгенерированного видео. В режиме запуска Google предлагается бесплатные кредиты (300 долларов США), и в вершине AI могут быть начальные периоды бесполезного использования.
  • Подписка: Доступ через Gemini Advanced и Whask Animate включен в подписку на Google One AI Premium (20 долларов США в месяц, 21,99 евро в Испании). Для сравнения, Sora de Openai предлагается в рамках подписки на CHATGPT Plus (20 долларов США в месяц) и Pro (200 долларов США в месяц).
  • БЕСПЛАТНО/Экспериментальные: платформы, такие как Google AI Studio и VideoFX (с списком ожидания), предоставляют бесплатный доступ, но с большими ограничениями с точки зрения квот и доступных функций.

Следующая таблица суммирует дороги доступа, чтобы я вижу 2:

Таблица 1: Сводка доступа Google Я вижу 2

Платформа

Метод доступа

Типичный пользователь

Ключевые спецификации (текущий доступ)

Модель затрат

Состояние доступности

Gemini API/Vertex AI

Ключ API, AllowStist (некоторая функция.)

Застройщик, компания

Потенциал 4K/минуты, API: 720p/8s

В секунду (0,35-0,50 долл. США)

Ga, preview (edit)

Google AI Studio

Авторизоваться

Разработчик

720p/8 с

Бесплатно (низкие квоты)

Экспериментальный

Видеофх (лаборатории)

Вход + подождите

Создатель

720p/8 с

Бесплатно (низкие квоты)

Список подождите (рег.)

Близнецы продвинулись

Google One AI Premcription.

Потребитель

720p/8s (16: 9)

Подписка (20 долларов в месяц)

GA (глобальный)

Взбейте аним (лаборатории)

Google One AI Premcription.

Потребитель, создатель

Видеоизображение (8 с)

Подписка (20 долларов в месяц)

GA (60 стран)

Шорты на YouTube

Интегрирован в приложение

Создатель контента

Средства / клипы (8 с?)

Бесплатно (интегрирован)

Развертывание (рег.)

 

Это разнообразие точек доступа и ценовых моделей раскрывает стратегию ошеломленного доступа от Google. Самые высокие возможности (потенциально 4K, более длительные видео, расширенные средства управления) и самые высокие цены предназначены для бизнес -пользователей и разработчиков через API, где воспринимаемая стоимость и готовность платить больше. В то же время предлагаются более ограниченные версии (720p, 8 секунд), но более экономически доступны для потребителей и создателей посредством бесплатных подписок или прогнозов. Этот сегментированный подход позволяет Google управлять сложностью развертывания, высокие затраты на обработку, связанные с генерацией видео, и максимизировать потенциальный доход, адаптируясь к потребностям различных сегментов рынка.

Тем не менее, эта ценовая стратегия помещает, что я вижу 2 в интересной позиции перед конкуренцией. Высокая стоимость в секунду API (от 0,35 до 0,50 долл. США) заметно контрастирует с включением SORA в относительно доступные подписки CHATGPT (20 долл. США/200 долл. В месяц). Хотя у Sora все еще нет широко доступного публичного API с определенными ценами, эта фундаментальная разница в модели доступа может создать конкурентное давление на цены Google. Если OpenAI или другие конкуренты предлагают API с более низкими затратами на единицу, или если высококачественные модели становятся доступными с помощью более дешевых подписок, профессиональные пользователи, которым необходимо генерировать большие объемы видео, могут найти более привлекательные альтернативы, чем API I See 2, потенциально заставляя Google пересмотреть свою структуру цен, чтобы поддерживать конкурентоспособность в этом ключевом сегменте.

Просмотр 2 Технических возможностей: прыжок в генеративном видео

Я вижу, что 2 работают в основном через два модальности: генерация текста в видео (T2V), где текстовое описание преобразуется в видео сцену, а генерация видео - видео (I2V), которое поощряет статическое изображение, основанное на дополнительной текстовой подсказке для определения стиля и движения. Эта модель является результатом исследований Google в области генерации видео, восприятия архитектуры и изучения предыдущих проектов, таких как GQN, DVD-GAN, Image-Video, Fenaki, Walt, VideoPoet и Lumiere, в дополнение к моделям трансформатора и моделей Gemini.

Что касается технических характеристик вывода, я вижу, что 2 представляют значительный прогресс, хотя с важными нюансами между его потенциалом и текущим доступом:

  • Разрешение: базовая модель способна генерировать видео с разрешением до 4K.3 Это улучшение по отношению к тому, что я вижу 1, который достиг 1080p. Однако многие из текущих реализаций, доступных для общественности (API/Vertex AI, AI Studio, Gemini Advanced, VideoFX), ограничены 720p 14 или 1080p в некоторых контекстах.
  • Продолжительность видео: я вижу, что 2 имеет возможность генерировать клипы, которые «превышают минуту» или достигают двух минут непрерывной продолжительности и даже потенциально больше. Это улучшает способность видеть 1 (> 60 с). Тем не менее, текущий доступ через API, AI Studio и Gemini Advanced часто ограничивается 8 -секундными клипами.
  • Скорость фотограмм (частота кадров): документация API и вершины AI указывает скорость 24 кадров в секунду (FPS). В некотором сравнении упоминаются 30-60 кадров в секунду.
  • Коэффициент внешнего вида: через API/Vertex AI, форматы 16: 9 (ландшафт) и 9:16 (портрет) поддерживаются. Отъезд в Gemini Advanced - 16: 9.
  • Выходной формат: формат MP4 будет использоваться для выходов, сгенерированных с помощью Advanced Gemini.

Помимо основных спецификаций, я вижу, что 2 представляют ключевые качественные улучшения:

Видео с разрезом томата, сгенерированного я вижу 2

 

  • Улучшенное понимание и реализм: модель демонстрирует расширенное понимание естественного языка и визуальной семантики, точно интерпретируя тон, нюансы и детали длинных подсказок. Используйте архитектуры трансформатора (возможно, энкодеры UL2) для обработки текста. По сути, Google подчеркивает моделирование реального мира физическим как решающее улучшение. Такие примеры, как физика воды, ожожная бумага или точный поток томата, не влияя на пальцы, иллюстрируют эту способность, позиционируя ее как ключевой дифференциатор против конкурентов, таких как Сора. Это физическое понимание приводит к представлению движения высокой точности, с жидкими движениями реалистичных символов и объектов. Результатом являются видео с большим реализмом и верностью, с тонкими деталями и значительным снижением визуальных артефактов (таких как дополнительные пальцы или неожиданные объекты) по сравнению с предыдущими моделями, используя такие методы, как нейрональное рендеринг адаптивных сцен и Gans. Кроме того, временная согласованность была улучшена, поддержание стабильности символов и объектов во всех кадрах с помощью скрытых диффузионных моделей. Конечно, как можно увидеть в видео, невозможные изображения часто генерируются как замечательный кусок томата, который превращается в половину томата после разрезания.
  • Кинематографический контроль и стили: я вижу, что 2 интерпретирует «уникальный язык кинематографии». Понимание таких терминов, как «TimeLapse», «Air Take», «Drone», «Путешествие», «Долли», «Передний план», «Counterpicado», «Панео справа» и даже позволяет вам указать желаемый жанр. Он предлагает обширные элементы управления камерой при принятии, углах и движениях, выдающееся ключевое преимущество. Он может имитировать конкретные эффекты линз (например, «18 -миллиметровый объектив» для широкого угла) и такие эффекты, как «пониженная глубина поля», включая вспышки линзы (вспышка линзы). Он поддерживает широкий спектр визуальных и кинематографических стилей.
  • Возможности редактирования (предварительный просмотр/AllingList): я вижу, что 2 представляют более сложные функции редактирования, хотя в настоящее время они требуют доступа по списку разрешений на AI Vertex AI. Они включают в себя маскированное издание или внедрение, для устранения нежелательных элементов (логотипов, отвлечения) в определенных видео -областях и озадирование, чтобы расширить обрамление видео, заполняющего новые области генерально, полезные для изменения отношений внешнего вида. Также упоминается интерполяция для создания мягких переходов между фиксированными изображениями и общими возможностями редактирования для уточнения или просмотра контента без начала с нуля.

Сильный акцент Google на понимание физики и движения I See 2 не случайно. Похоже, что он является центральным архитектурным направлением, направленным на исправление важной слабости, наблюдаемой в предыдущих моделях и конкурентах, таких как Сора (о чем свидетельствует пример резки томата). Позиционируя реализм как основное ценностное предложение, Google непосредственно указывает на профессиональные случаи (предварительный просмотр фильмов, реклама, обучение), где анти -натуральное движение нарушает погружение и доверие. Этот фокус стратегически различает, я вижу 2 на рынке, привлекая пользователей, которые определяют приоритеты, возможно, чистая скорость или более абстрактная творческая свобода.

Тем не менее, существует заметный разрыв между объявленным потенциалом и реальностью, доступной для многих пользователей. Разница между способностью генерировать 4K видеороликов в несколько минут и реальным опытом получения 720p клипов и 8 секунд создает маркетинговую задачу и может вызвать разочарование. Это говорит о том, что, хотя центральная модель является мощной, поднимается и оптимизируется ее для широкого и доступного доступа, остается значительным техническим препятствием, вероятно, из -за высоких вычислительных затрат, времени вывода или возможных проблем последовательности и безопасности в более длительных продолжительности. Это несоответствие влияет на восприятие пользователя: они видят удивительные демонстрации, но взаимодействуют с менее способным инструментом, который может нанести вред репутации продукта, несмотря на его основной потенциал.

Наконец, акцент на конкретных кинематографических контролях (линзы, типы плоскости, глубина поля) четко ориентированы на профессиональных кинематографистов и создателей. Этот подход согласуется с самой высокой ценовой моделью API и бизнес -сотрудничества, что предлагает первоначальную цель проникновения в профессиональные рабочие процессы. Google, кажется, определяет основной рынок в создании профессионального контента (реклама, предварительный просмотр фильмов, маркетинг), где эти элементы управления предлагают значительную ценность, которая оправдывает стоимость, помимо простых развлечений для потребителя.

От я вижу 1 до я вижу 2

Чтобы полностью понять достижения See 2, полезно сначала установить базовую линию своего предшественника. Я вижу, что я уже предлагал заметные возможности: генерация видео до 1080p, продолжительность более 60 секунд, понимание кинематографических терминов, генерация видео для видео, применение команд редактирования, улучшения в последовательности с помощью скрытой диффузии и реализации синтедных брендов воды и фильтров безопасности.

Я вижу, что 2 представляет собой значительную эволюцию на этой основе, с ключевыми улучшениями в нескольких областях:

  • Резолюция: Наиболее очевидным прыжком является цель разрешения See 2, которая достигает 4K, превышая максимум 1080p See 1.
  • Реализм и верность: я вижу, что 2 подробно вносят «значительные улучшения», реализм и сокращение артефактов по сравнению с предыдущими моделями и конкурентами. Он производит менее визуальные «галлюцинации», хотя, как вы можете проверить видео об этих новостях, это не всегда.
  • Движение и физика: у него есть «расширенные возможности передвижения» и лучшее симуляцию физики реального мира, выходя за рамки консистенции IS 1.
  • Управление камерой: он предлагает «более старые» и более точные варианты управления камерой, расширяя понимание кинематографических терминов, которыми я уже владел, я вижу 1.
  • Продолжительность видео: потенциал продолжительности продлевается, превышая предложенную минуту, я вижу 1.
  • Издание: представьте более сложные возможности редактирования, такие как Inpainting and Outpainting (в предварительном просмотре), которые выходят за рамки команд издания, описанные, чтобы увидеть 1.

Следующая таблица непосредственно сравнивает ключевые способности I See 1, и я вижу 2:

Таблица 2: Сравнение функций, которые я вижу 1 против я вижу 2 

Особенность

Способность я вижу 1

Способность я вижу 2

Максимальное разрешение

1080p

До 4K (потенциал)

Максимальная продолжительность (потенциал)

> 60 секунд

До 2 минут или более

Физика / движение

Сосредоточиться на последовательности

Усовершенствованное физическое моделирование, реалистичное движение

Реализм / верность

Высокое качество

Значительные, меньшие улучшения артефакта

Кинематографический контроль

Понимание терминов

Большая точность и варианты (объективы и т. Д.)

Функции редактирования

Основные команды редактирования

Inpainting, Outpainting (Предварительный просмотр)

 

Эта прогрессия я вижу 1 до того, как я вижу 2, иллюстрирует стратегию итеративного улучшения от Google. Достижения в разрешении, реализме, физике и контроле не являются случайными; Они сосредоточены на фундаментальных аспектах качества и управления видео, которые имеют решающее значение для профессионального усыновления. Эта модель предполагает структурированный процесс разработки, демонстрируя длительную приверженность уточнению основной технологии.

Ограничения и проблемы See 2

Несмотря на его впечатляющие возможности, я вижу, что 2 не освобождаются от ограничений и проблем, как присутствующих в текущей технологии генерации видео с помощью ИИ, так и специфических для его реализации и развертывания.

  • Сложность и приверженность подсказке: хотя понимание естественного языка заметно улучшилось, я вижу, что у 2 все еще есть трудности с чрезвычайно сложными или подробными подсказками, не следовая всем инструкциям с точностью. Инженерная подсказка по -прежнему имеет решающее значение для получения хороших результатов. В то время как тесты указывают высокие показатели адгезии в подсказке, есть случаи, когда модель не соответствует ожиданиям.
  • Артефакты и консистенция: генерация визуальных артефактов, хотя и сокращена, не была полностью устранена. Случайные деформации могут появляться у субъектов, неразборчивого текста или «галлюцинаций», таких как дополнительные пальцы или неожиданные объекты. Временная последовательность может потерпеть неудачу в очень сложных сценах или с быстрыми движениями, а физическое моделирование может быть нарушено в особенно сложных сценариях. Некоторые примеры, сгенерированные пользователями, были описаны как «неестественные» или «тревожные».
  • Скорость генерации: время, необходимое для создания видео, может быть значительным. Есть сравнения, которые цитируют около 10 минут на клип, что контрастирует с приблизительно 5 минут, приписываемыми Сора. Тем не менее, некоторые интеграции, такие как шорты на YouTube, кажутся намного быстрее. Задержка API официально описывается как «обычно через несколько минут, но это может занять больше времени».
  • Инструменты издания: отсутствие инструментов редактирования, интегрированных в некоторые из интерфейсов доступа (API, возможно, начальная версия Gemini Advanced) заставляет пользователей прибегать к внешнему программному обеспечению для внесения изменений. Наиболее продвинутые функции редактирования в вершине AI требуют доступа по списку разрешенных пользователей. Сора, с другой стороны, включает в себя интегрированные инструменты редактирования.
  • Доступные элементы управления: некоторые из первых пользователей VIS заметили, что в версии VI 2, которую они протестировали, не имела контроля для разрешения или продолжительности видео по сравнению с SORA. Тем не менее, API/Vertex AI действительно предлагает параметры для контроля продолжительности, коэффициента внешнего вида, отрицательных подсказок и семян генерации.
  • Доступ и стоимость: поскольку мы имеем подробный фрагментированный доступ, списки ожидания, географические ограничения и высокие затраты API представляют собой значительные барьеры для усыновления. На данный момент плата на свободных уровнях чрезвычайно низкая, хотя, будучи настолько недавней, их посадка все равно придется немного подождать, чтобы оценить ее.
  • Ограничения контента и фильтры безопасности: фильтры безопасности, реализованные Google, являются строгими и могут неожиданно блокировать поколение контента, даже для, по -видимому, безвредных подсказок. Существуют конкретные ограничения для поколения людей, особенно незначительных (контролируемых такими параметрами, как Alluct_adult или Dislower в API). Пользователи сообщили о проблемах с созданием видео даже из изображений, содержащих людей, или в сценах без них. Эта чрезмерная цензура может сделать инструмент непригодным для определенных вариантов использования.
  • Недостатки емкости: доступные версии в настоящее время не имеют генерации звука. Сложность в создании реалистичных рук по -прежнему является общей проблемой во всех моделях ИИ.

Эти ограничения показывают неотъемлемая приверженность между пропускной способностью и удобством для использования. Хотя я вижу, что 2 предполагают возможности высокого уровня (потенциал 4K, реалистичная физика), ограничения скорости, доступные элементы управления (в некоторых версиях), отсутствие интегрированного редактирования и строгие фильтры содержания значительно влияют на практическое использование. По сравнению с конкурентами, которые могут быть быстрее, более интегрированными или менее ограничивающими (например, Sora или Runway), видя, что 2 пользователя могут получить более высокое потенциальное качество за счет более громоздкого или ограниченного пользовательского опыта. Это может повлиять на усыновление, особенно для итеративных или чувствительных рабочих процессов.

Кроме того, отчеты о чрезмерно агрессивных фильтрах контента, которые блокируют безвредные подсказки, предполагают возможную чрезмерную реакцию в приоритете безопасности и снижении риска для бренда Google. Эта осторожность может быть получена из прошлых противоречий с другими моделями ИИ (таких как изображения Близнецов). Хотя безопасность необходима, слишком строгие фильтры могут использовать инструмент для многих общих вариантов использования (например, поощрять семейные фотографии), создавая важное ограничение, обусловленное неприятием риска.

Наконец, комбинация пробелов в емкости (720p/8s против 4K/минуты), проблем с юзабилитией (скорость, управление переменными) и барьеры доступа усиливают проблему «демонстрации против реальности». Средний пользовательский опыт может быть далеко от полированных демонстраций, представленных Google, что может повредить достоверности, если ожидания не будут тщательно управляются. Этот значительный разрыв между обещанием и реальностью, испытываемым пользователем, может привести к разочарованию и негативному восприятию, несмотря на технологическое достижение, которое предполагает, что я вижу 2.

Я вижу 2 против Соры и других

Положение See 2 на рынке в значительной степени определяется его сравнением с его основным конкурентом Sora de Openai, а также взлетно -посадочной полосой.

Прямые сравнения (я вижу 2 против Соры):

  • Качество/реализм: многочисленные первоначальные источники и пользователи называют, что я считаю 2 превосходными с точки зрения реализма, физического моделирования и визуальных деталей. Сора, с другой стороны, иногда показывает трудности с мелкими деталями (например, руками) и физикой. Некоторые анализы предполагают, что Сора может быть более «художественным» или творчески гибким.
  • Резолюция: я вижу, что 2 имеет потенциал до 4K, в то время как Сора ограничена 1080p.
  • Продолжительность: потенциал See 2 (более 1-2 минуты) превышает продолжительность, приведенную для Соры (20 или 60 секунд). Тем не менее, текущий доступ к I See 2 обычно короче (8 секунд).
  • Скорость: я вижу 2 (около 10 мин), как правило, медленнее, чем Сора (около 5 мин). Важно заметить существование «Sora Turbo», возможно, более быстрой и экономичной версии, но потенциально более низкого качества, чем оригинальные демонстрации Соры.
  • Контроль: я вижу, что 2 восхваляют его кинематографический элемент управления, в то время как Сора выделяется за ее гибкость и такие функции, как раскадровка. Тем не менее, MKBHD обнаружил, что в его тестовой версии View 2 было меньше элементов управления, чем Сора.
  • Издание: я вижу, что у 2 не хватает интегрированного редактирования (за исключением вершины AI с AllingList); Sora предлагает встроенные инструменты (Remix, Loop, Blend).
  • Доступ/цена: доступ к I See 2 фрагментирован, а стоимость API высока; Сора доступна с помощью более дешевых подписок. В настоящее время Сора более доступна для широкой общественности.

Бестмаркинг и другие конкуренты:

Результаты Benchmark MovieGenbench, где оценщики человека описали видео, полученные из более чем 1000 подсказок, показали, что я вижу, что 2 превзошли Sora Turbo, Kling и MovieGen как в общем предпочтении, так и с приверженностью к быстрому Тем не менее, крайне важно распознать ограничения этих контрольных показателей, которые могут использовать выбранные результаты («Погоранный вишня») или на основе конкретных наборов данных.

Конкурсная панорама также включает взлетно-посадочную полосу (с Gen-3 Alpha/Gen-4), Kling, AWS Nova Reel, Hailuo, Minimax и потенциально MovieGen Goal. Некоторые пользователи даже выражают предпочтения взлетно -посадочной или Хайлуо относительно текущей версии Сора, к которой они имеют доступ.

Следующая таблица предлагает сравнительный снимок VER 2 перед его основными конкурентами:

Таблица 3: Сравнительный снимок видеогенераторов по ИИ

Особенность

Google я вижу 2

Openai Sora

ВПП (Gen-3/4)

Основная сила

Реализм, физика, кинематический контроль [множественные]

Скорость, творческая гибкость, издание

Мелкий контроль, конкретные режимы (неявные)

Максимум

4K (потенциал)

1080p

Переменная (720p-1080p+ в соответствии с планом/версией)

Максимум

2 мин+ (потенциал)

20 -е / 60 -е годы

~ 15S (Gen-2), дольше в Gen-3/4 (переменная)

Скорость

Медленнее (~ 10 мин)

Быстрее (~ 5 мин)

Быстрый (Gen-4 в реальном времени?)

Издание инструменты

Ограниченный / внешний (API)

Интегрированный (ремикс, петля и т. Д.)

Интегрированный (неявный)

Модель доступа

Фрагментированный (API, подводные лодки, лаборатории) [множественные]

Подписка CHATGPT

Подписка / кредиты

Ценовая модель

API: $/sec; Sub: 20 долларов в месяц

Sub: $ 20/$ 200 месяц

Годовые планы (144-1500 долл. США)

 

Это сравнение предполагает возможную сегментацию рынка, основанную на сильных сторонах каждого инструмента. Я вижу, что 2, кажется, идет на профессиональное использование высокой верности, которая ценит кинематографическое качество и физическую точность [много фрагментов]. Сора может привлечь более широкую аудиторию создателей контента для социальных сетей и творческих экспериментов благодаря их скорости, гибкости и интегрированному редактированию. Взлетно -посадочная полоса, с его итеративным подходом и, возможно, конкретными характеристиками, мог найти свою нишу между визуальными художниками и профессионалами VFX. Рынок не кажется монолитным; Различные инструменты, вероятно, будут сосуществовать, обслуживая различные сегменты в соответствии с их центральными способностями.

Крайне важно применить предупреждение «выпущенная версия» при оценке этих сравнений. Часто публичная версия модели противопоставлена (например, «Sora Turbo», которая, по мнению некоторых пользователей, ниже, чем начальные демонстрации) с тщательно выбранными демонстрациями или версиями с ограниченным доступом другого (я вижу 2). Это затрудняет установление окончательных суждений. «Лучшая» модель может в значительной степени зависеть от того, какая конкретная версия оценивается и при каких условиях делает превосходство мобильной целью.

Наконец, существует повторяющаяся гипотеза о преимуществах данных Google. Несколько источников предполагают, что прямой и массовый доступ Google к данным YouTube дает вам значительное преимущество в обучении VI 2 для достижения реалистичных движений и понимания различных сценариев по сравнению с конкурентами, которым может потребоваться прибегнуть к соскобке данных. Хотя это официально не подтверждено, этот доступ к набору видеодантеров, настолько и потенциально маркировку, может быть долгосрочной важной конкурентной ямой, которая потенциально объясняет предполагаемое преимущество See 2 в реализме и трудно воспроизвести юридически и эффективно другими.

Безопасность и этика в See 2

Google подчеркнула свою приверженность принципам ответственности при разработке и развертывании I See 2. Компания утверждает, что провела обширные тесты «красной команды» и оценок, чтобы предотвратить создание контента, которое нарушает его политику. Два основных технических механизма подтверждают этот подход:

  • Бренд Synthid Water: эта технология является ключевой функцией безопасности, реализованной в IVO 2 и других моделях Google Generative. Это невидимый цифровой бренд воды, непосредственно встроенный в видео фотограммы во время поколения. Он предназначен для того, чтобы быть постоянным, даже если видео отредактировано (разрезание, фильтры, сжатие) и не влияет на ощутимое визуальное качество. Его цель состоит в том, чтобы разрешить идентификацию контента, генерируемого ИИ, посредством специализированных инструментов обнаружения, что помогает бороться с дезинформацией и ошибочной атрибуцией.
  • Фильтры безопасности: я вижу 2 включения фильтров, предназначенных для предотвращения создания вредного контента. API включает в себя конкретные параметры для управления поколением людей, таких как Alluct_adult (разрешайте только взрослые, значение по умолчанию) или запрет (не позволяя людям). Однако, как упомянуто выше, есть сообщения о пользователях, которые указывают, что эти фильтры могут быть чрезмерно ограничительными.

Помимо этих технических мер, развертывание I See 2 является частью более широкой этической панорамы с несколькими ключевыми проблемами:

  • Глубокие и дезинформации: способность генерировать реалистичные видеоролики влечет за собой неотъемлемый риск создания убедительных глубоких развлечений для распространения ложной информации или выполнения вредоносных поставщиков. Synthid является основной технической защитой Google от этого риска.
  • Интеллектуальная собственность и авторские права: собственность контента, генерируемого ИИ, остается юридически серой областью. Кроме того, возникают опасения по поводу данных, используемых для обучения этих моделей, таких как возможное использование видео на YouTube без явного согласия для этой цели.
  • Предвзятость: как и в случае с любой моделью обученных с большими наборами данных, существует риск, который я вижу, что 2 увековечивают или усиливают существующие социальные предубеждения в своих результатах, хотя Google утверждает, что принимает меры для его смягчения.
  • Смещение труда: растущая способность этих инструментов вызывает обеспокоенность по поводу их влияния на творческие отрасли, с потенциальным смещением ролей в кино, анимации, маркетинга и дизайна. В исследовании приведено оценки значительного влияния на рабочие места в США за 2026 год.

Видное развертывание синтида Google в его генеративных моделях представляет собой упреждающий технический подход для решения рисков дезинформации. Обработка отметки воды во время генерации является интегрированной профилактической мерой, в отличие от послеочередного обнаружения. Это говорит о том, что Google считает водяные знаки фундаментальными для ответственного развертывания. Тем не менее, успех этой стратегии зависит от реальной надежности водных брендов и общего внедрения надежных инструментов обнаружения. Это техническое решение для сложной социально-технической проблемы.

Напряженность между реализацией надежных фильтров безопасности и поддержанием полезности для пользователя, о чем свидетельствует жалобы, подчеркивает фундаментальную дилемму для разработчиков ИИ: безопасность и полезность. Чрезмерно строгие фильтры могут использовать инструмент, в то время как слабые фильтры повышают риски. Поиск правильного баланса является непрерывной проблемой, что является значительным последствием для принятия пользователя и социального воздействия. Текущая калибровка Google, по -видимому, склоняется к осторожности, что может повлиять на ее конкурентоспособность, если пользователи находят этот инструмент слишком ограничительным для их потребностей.

Наконец, такие характеристики, как синтид и настраиваемые параметры безопасности (хотя и несовершенные), представляют попытку Google внедрить этические соображения в собственную конструкцию продукта. Это выходит за рамки политических заявлений для достижения технической реализации. В то время как выполнение может иметь сбои (слишком строгие фильтры), подход к интеграции безопасности в архитектуру инструмента отражает определенную позицию в отношении ответственного развития ИИ, стремясь обеспечить этическое использование с помощью самой технологии.

Воздействие и будущая траектория версии 2

Запуск и эволюция VI 2 имеют значительные последствия, которые выходят за рамки их технических характеристик, потенциально влияя на несколько отраслей и переопределение творческих процессов.

Влияние на творческие индустрии:

Я вижу, что 2 может революционизировать рабочие процессы в нескольких секторах:

  • Кинотеатр: он может ускорить предварительный просмотр и тестирование концепций, генерировать фоновые активы и даже создать полные короткометражные фильмы. Сотрудничество с кинематографистами, такими как Дональд Гловер и его исследование Гилга подчеркивает этот подход.
  • Маркетинг и реклама: это позволяет быстро прототировать рекламу, генерацию пользовательского рекламного контента в масштабе и создание демонстраций продуктов. Такие компании, как Mondelez, WPP, Agoda, Alphawave и Trakto, уже изучают это. По данным Kraft Heinz Company, резкое сокращение времени производства (от недель до часов) и более низкая зависимость от фондовых отснятых материалов.
  • Видеоигры: ее можно использовать для создания кинематографии или реалистичного рекламного материала.
  • Образование и обучение: облегчает создание иллюстративных видео для объяснения сложных концепций или имитации процедур (например, медицинская подготовка).
  • Социальные сети: интеграция с шортами на YouTube и возможность генерировать короткие и привлекательные клипы делают его мощным инструментом для создателей контента на таких платформах, как Tiktok.

Демократизация против разрушения:

Я вижу, что 2 воплощает двойственность: с одной стороны, это демократизирует производство высококачественного видео, что делает его доступным для небольших компаний и отдельных создателей, которым ранее не хватало необходимых ресурсов или технических навыков. С другой стороны, угрожает нарушать традиционную роль в творческих отраслях и кормит опасения по поводу распространения низкокачественного контента или автоматического генерируемого «ИИ -шляпа».

Будущее развитие:

Пользователи надеются, что я увижу, что 2 в конечном итоге включают в себя много улучшений в последующих версиях, таких как:

  • Расширение пропускной способности: непрерывное улучшение качества, более широкое развертывание мощностей 4K и дольше, и, возможно, добавление звука.
  • Интеграция экосистем: большая интеграция с другими продуктами Google, такими как AI Vertex AI, YouTube и потенциально поиск Близнецов и экосистема. Комбинация с Близнецами предполагается, чтобы улучшить понимание физического мира.
  • Быстрая эволюция: уровень разработки останется ускоренным, способствующим интенсивной конкуренции в этой области, с ожидаемыми событиями в ближайшие годы.

Анализ показывает, что такие инструменты, как я вижу, не устраняют творческую работу, а перемещают узкое место. Основная трудность больше не находится в техническом исполнении (съемок, издание, визуальные эффекты), но на идее, подсказывает инженерию и издание полученного контента. Успех будет зависеть от творческого видения и способности эффективно общаться с ИИ. Творческое направление и способность сформулировать точные и запоминающиеся подсказки становятся критическими навыками.

Вместо полной замены наиболее вероятным краткосрочным воздействием является появление профессиональных ролей «увеличилось с помощью ИИ». Профессионалы в кино, маркетинге, дизайне и т. Д. Используют такие инструменты, как я вижу 2, чтобы повысить их производительность, ускорить итерацию и изучить новые творческие возможности. Это потребует адаптации и развития новых навыков, ориентированных на эффективное использование этих инструментов, преобразование существующих ролей вместо того, чтобы полностью их устранять.

Наконец, интеграция VER 2 в экосистеме Google (Gemini, Vertex AI, YouTube, Labs) является четкой стратегической игрой. Он стремится создать синергизм (используйте Gemini для генерации подсказок, изображения для входов i2V, данных YouTube для обучения) и продвижения постоянства пользователей на своих платформах. Этот целостный подход может дать конкурентное преимущество перед независимыми инструментами, что делает предложение Google более привлекательным, чем простая сумма его деталей для пользователей, уже адаптированных к их экосистеме.

Видео, сгенерированные по просмотру 2

Здесь мы оставляем вам несколько видео, сгенерированных я, я вижу 2. Как вы увидите, я вижу, что 2, как правило, генерируют невозможные элементы, внизу мы указываем используемый PROMT.

Видео попугаита, нажав стакан с окном с клювом, сгенерированным я вижу 2

 

Видео пассажирского самолета, летящего между облаками с человеком на фюзеляже, сгенерированного See 2

 

Диснейский фильм тип кролика, читающего книгу, сгенерированную View 2

 


Космос

Вычисление

Экономика

Криптовалюты

Общий

Природа