Pesquise no MDM

Boletim

O campo da geração de mídia através da inteligência artificial (IA) está evoluindo em um ritmo vertiginoso, e a geração de vídeos se tornou uma das fronteiras mais ativas e competitivas. Nesse contexto, o Google apresentou eu vejo 2, a evolução de seu modelo que vejo 1 e sua proposta principal de competir neste espaço emergente. Desenvolvido pelo Google DeepMind, vejo que 2 está posicionado como um modelo de última geração projetado para produzir vídeos de alta qualidade e realismo, com o objetivo de oferecer um "controle criativo sem precedentes".

A chegada do VIE 2 ocorre em um momento de intensa competição, com atores -chave como Openai Sora, Runway, Kling e outros promovendo a inovação a uma velocidade notável. O Google afirma que vejo 2 redefine a qualidade e o controle da geração de vídeo pela IA, com o potencial de transformar significativamente os fluxos de trabalho criativos em vários setores.

Este artigo entra em você em uma análise detalhada do Google, vejo 2. Examinamos sua disponibilidade através das diferentes plataformas do Google, suas especificações técnicas e as principais melhorias em relação ao seu antecessor, vejo 1. Também abordamos as limitações atuais dos modelos, realizando uma análise comparativa com o que eu vejo os concorrentes relevantes, com os concorrentes relevantes, com as opiniões e os especialistas iniciais e os usuários. 

Acessando eu vejo 2: plataformas, preços e disponibilidade

A estratégia de lançamento do Google para ver 2 é caracterizada por uma implantação gradual e fragmentada. Começou com previsões privadas para criadores e cineastas selecionados e expandiu progressivamente vários produtos e plataformas do Google. A data -chave foi o anúncio de sua disponibilidade em 15 de abril de 2025 para usuários avançados de Gemini.

Atualmente, existem várias rotas a acessar que vejo 2, cada uma com suas próprias características e limitações:

  • Gemini API / VERTEX AI: Esta é a principal rota para desenvolvedores e clientes de negócios que procuram integrar, vejo 2 em seus próprios aplicativos. É considerado pronto para a produção. O acesso requer teclas de API e, para certas funções avançadas, como a edição ou controles específicos da câmara, pode ser necessário estar em uma lista de usuários permitidos. Empresas como WPP, Agoda, Mondelez e Poe já estão usando ou testando que vejo 2 através da AI do Vertex.
  • Google AI Studio: oferece um ambiente experimental para os desenvolvedores testarem os recursos de eu vejo 2. O acesso inicial geralmente é gratuito, mas está sujeito a cotas de uso muito rigoroso.
  • Videofx (Google Labs): é uma ferramenta experimental destinada a criadores, acessível através do Google Labs. Requer registro em uma lista de espera. Inicialmente, o acesso antecipado foi restrito a usuários com mais de 18 anos nos EUA, embora o Google planeje expandir o acesso.
  • Gêmeos Avançados: Vejo que 2 é integrado como uma função para os assinantes do Plano Premium Google One AI. Ele permite gerar vídeos de 8 segundos na resolução de 720p, com limites de uso mensal não definidos explicitamente (é indicado que seremos notificados quando estivermos atingindo o limite). Está disponível globalmente em países e idiomas onde os aplicativos de Gemini é suportado.
  • Whisk Animate (Google Labs): essa função experimental, também no Google Labs, usa eu vejo 2 para converter imagens estáticas em clipes de vídeo animado de 8 segundos. Está disponível para assinantes do Google um prêmio de IA em mais de 60 países.
  • Shorts do YouTube (tela dos sonhos): A integração do VAS 2 no YouTube Shorts está sendo implementada através da função da tela dos sonhos. Isso permitirá que os criadores gerarão fundos de vídeo exclusivos através da IA ​​ou até criem videoclipes independentes a partir de avisos de texto. A implantação inicial será feita nos EUA, Canadá, Austrália e Nova Zelândia.

Quanto aos diferentes preços, eles variam significativamente entre essas plataformas:

  • API/VERTEX AI: O custo é baseado no tempo de vídeo gerado. As fontes indicam preços entre US $ 0,35 e US $ 0,50 por segundo. Isso equivale a US $ 21 a US $ 30 por minuto ou US $ 1260 a US $ 1800 por hora em vídeo gerado. Há o modo de lançamento do Google oferece créditos gratuitos (US $ 300) e pode haver períodos iniciais de uso inútil no vértice AI.
  • Assinatura: o acesso através do Gemini Advanced e Whisk Animate está incluído na assinatura do Google One AI Premium (US $ 20/mês, € ​​21,99 na Espanha). Em comparação, a Sora de Openai é oferecida como parte das assinaturas do ChatGPT Plus (US $ 20/mês) e Pro (US $ 200/mês).
  • GRATUITO/EXPERIMENTAL: Plataformas como o Google AI Studio e o VideoFX (com lista de espera) fornecem acesso gratuito, mas com grandes limitações em termos de cotas e funcionalidades disponíveis.

A tabela a seguir resume as estradas de acesso para eu vejo 2:

Tabela 1: Resumo do Access Google eu vejo 2

Plataforma

Método de acesso

Usuário típico

Especificações principais (acesso atual)

Modelo de custo

Estado de disponibilidade

Gêmeos API/Vertex Ai

Chave da API, Lista de alvo (alguma função.)

Desenvolvedor, Empresa

Potencial de 4k/minutos, API: 720p/8s

Por segundo (US $ 0,35 a US $ 0,50)

GA, Preview (Edit)

Google AI Studio

Conecte-se

Desenvolvedor

720p/8s

Grátis (cotas baixas)

Experimental

Videofx (laboratórios)

Login + Espere

Criador

720p/8s

Grátis (cotas baixas)

Lista Wait (Reg.)

Gêmeos avançados

Google uma premiação da IA.

Consumidor

720p/8s (16: 9)

Assinatura (US $ 20/mês)

GA (Global)

Bata animado (laboratórios)

Google uma premiação da IA.

Consumidor, criador

Imagem de vídeo (8s)

Assinatura (US $ 20/mês)

GA (mais de 60 países)

Shorts do YouTube

Integrado no aplicativo

Criador de conteúdo

Fundos / clipes (8s?)

Grátis (integrado)

Implantação (reg.)

 

Essa diversidade de pontos de acesso e modelos de preços revela uma estratégia de acesso escalonada pelo Google. As capacidades mais altas (potencialmente 4K, vídeos mais longos, controles avançados) e os preços mais altos são reservados para usuários e desenvolvedores de negócios por meio da API, onde o valor percebido e a disposição de pagar são maiores. Ao mesmo tempo, são oferecidas versões mais limitadas (720p, 8 segundos), mas mais acessíveis economicamente para consumidores e criadores por meio de assinaturas gratuitas ou previstas. Essa abordagem segmentada permite que o Google gerencie a complexidade da implantação, altos custos de processamento associados à geração de vídeo e maximize a receita potencial, adaptando -se às necessidades de diferentes segmentos de mercado.

No entanto, essa estratégia de preço coloca 2 em uma posição interessante em frente à competição. O alto custo por segundo da API (US $ 0,35 a US $ 0,50) contrasta acentuadamente com a inclusão de Sora em assinaturas relativamente acessíveis do ChatGPT (US $ 20/US $ 200 por mês). Embora a SORA ainda não tenha uma API pública amplamente disponível com preços definidos, essa diferença fundamental no modelo de acesso pode gerar pressão competitiva nos preços do Google. Se o OpenAI ou outros concorrentes oferecer APIs com custos unitários mais baixos, ou se modelos de alta qualidade se tornarem acessíveis por meio de assinaturas mais baratas, os usuários profissionais que precisam gerar grandes volumes de vídeo podem encontrar alternativas mais atraentes do que a API de eu vejo 2, forçando potencialmente o Google a reconsiderar sua estrutura de preços para manter a competitividade nesse segmento -chave.

Veja 2 recursos técnicos: um salto no vídeo generativo

Vejo que 2 opera principalmente através de duas modalidades: a geração de texto para vídeo (T2V), onde uma descrição textual é transformada em uma cena de vídeo e a geração de vídeo para vídeo (i2V), que incentiva uma imagem estática com base em um prompt textual adicional para definir estilo e movimento. Esse modelo é o resultado de anos de pesquisa do Google na geração de vídeos, aproveitando as arquiteturas e o aprendizado de projetos anteriores como GQN, DVD-GAN, Voceo de Imagem, Phenaki, Walt, Videooet e Lumiere, além dos modelos Transformer Architecture e Gemini.

Quanto às especificações técnicas de saída, vejo 2 apresenta um avanço significativo, embora com nuances importantes entre seu potencial e acesso atual:

  • Resolução: O modelo básico é capaz de gerar vídeo com uma resolução de até 4K.3 Esta é uma melhoria em relação a eu ver 1, que atingiu 1080p. No entanto, muitas das implementações atuais acessíveis ao público (API/Vertex AI, AI Studio, Gemini Advanced, VideoFX) são limitadas a 720p 14 ou 1080p em alguns contextos.
  • Duração do vídeo: vejo que 2 tem a capacidade de gerar clipes que "excedem o minuto" ou atingem até dois minutos de duração contínua e até potencialmente mais. Isso melhora a capacidade de ver 1 (> 60s). No entanto, o acesso atual por meio da API, AI Studio e Gemini Advanced é frequentemente restrito a clipes de 8 segundos.
  • Taxa de Fotogramas (taxa de quadros): A documentação da API e do vértice AI especifica uma taxa de 24 quadros por segundo (FPS). Em alguma comparação, são mencionados 30-60 fps.
  • Razão de aparência: Através da API/VERTEX AI, os formatos 16: 9 (paisagem) e 9:16 (retrato) são suportados. A partida em Gemini Advanced é 16: 9.
  • Formato de saída: O formato MP4 será usado para as saídas geradas através da Gemini Advanced.

Além das especificações básicas, vejo que 2 introduz as principais melhorias qualitativas:

Vídeo do corte de um tomate gerado por eu vejo 2

 

  • Entendimento e realismo aprimorado: o modelo demonstra uma compreensão avançada da linguagem natural e da semântica visual, interpretando com precisão o tom, as nuances e os detalhes de instruções longas. Use arquiteturas de transformador (possivelmente codificadores UL2) para processar o texto. Fundamentalmente, o Google destaca a simulação do mundo real físico como uma melhoria crucial. Exemplos como física da água, papel queimaduras ou o corte preciso de um tomate sem afetar os dedos ilustram essa capacidade, posicionando -o como um diferencial importante contra concorrentes como Sora. Esse entendimento físico se traduz em uma representação do movimento de alta precisão, com movimentos fluidos de caracteres e objetos realistas. O resultado são vídeos com maior realismo e fidelidade, com detalhes finos e uma redução significativa de artefatos visuais (como dedos extras ou objetos inesperados) em comparação com modelos anteriores, usando técnicas como renderização neuronal de cenas adaptativas e gans. Além disso, a consistência temporária foi aprimorada, mantendo a estabilidade de caracteres e objetos nos quadros por modelos de difusão latente. Obviamente, como pode ser visto no vídeo, imagens impossíveis geralmente geradas como aquele maravilhoso corte de um pedaço de tomate que é transformado em meio tomate após ser cortado.
  • Controle e Estilos cinematográficos: vejo 2 interpreta a "linguagem única da cinematografia". Entenda termos como "timelapse", "Air Take", "Drone", "Viajando", "Dolly", "Primeiro plano", "contrapicado", "Paneo à direita" e até permite especificar o gênero desejado. Oferece controles extensos da câmara sobre tomada, ângulos e movimentos, uma excelente vantagem importante. Ele pode simular efeitos específicos da lente (por exemplo, "lente de 18 mm" para angular ampla) e efeitos como "profundidade de campo reduzida", incluindo flashes de lente (flare da lente). Ele suporta uma ampla gama de estilos visuais e cinematográficos.
  • Recursos de edição (visualização/lista de permissões): Vejo 2 introduz funções de edição mais sofisticadas, embora atualmente exijam acesso por lista de permissão para o Vertex AI. Isso inclui edição mascarada ou pintura, para eliminar elementos indesejados (logotipos, distrações) em áreas de vídeo definidas e a pintura, para estender o enquadramento do vídeo que preenche as novas áreas de maneira geral, útil para mudar os relacionamentos de aparência. A interpolação também é mencionada para criar transições suaves entre imagens fixas e recursos de edição geral para refinar ou revisar o conteúdo sem começar do zero.

A forte ênfase do Google no entendimento da física e do movimento, vejo que 2 não é acidental. Parece ser um foco arquitetônico central, com o objetivo de corrigir uma fraqueza importante observada em modelos e concorrentes anteriores, como Sora (evidenciado pelo exemplo do corte do tomate). Ao posicionar o realismo como a principal proposta de valor, o Google aponta diretamente para casos profissionais (visualização de filmes, publicidade, treinamento), onde o movimento anti -natural quebra a imersão e a credibilidade. Esse foco diferencia estrategicamente que vejo 2 no mercado, atraindo usuários que priorizam a fidelidade, talvez, pura velocidade ou liberdade criativa mais abstrata.

No entanto, há uma lacuna notável entre o potencial anunciado e a realidade acessível a muitos usuários. A diferença entre a capacidade promovida de gerar vídeos em 4K de vários minutos e a experiência real de obter clipes de 720p e 8 segundos cria um desafio de marketing e pode gerar decepção. Ele sugere que, embora o modelo central seja poderoso, escalar e otimizá -lo para acesso amplo e acessível continua sendo um obstáculo técnico considerável, provavelmente devido a altos custos computacionais, tempos de inferência ou possíveis problemas de consistência e segurança em durações mais longas. Essa discrepância afeta a percepção do usuário: eles vêem demonstrações incríveis, mas interagem com uma ferramenta menos capaz, o que pode prejudicar a reputação do produto, apesar de seu potencial subjacente.

Finalmente, a ênfase nos controles cinematográficos específicos (lentes, tipos de plano, profundidade do campo) é claramente orientada para cineastas e criadores profissionais. Essa abordagem está alinhada com o mais alto modelo de preços da API e colaborações de negócios, sugerindo um objetivo inicial de invadir fluxos de trabalho profissionais. O Google parece identificar um mercado principal na criação de conteúdo profissional (publicidade, pré -visualização de filmes, marketing), onde esses controles oferecem um valor significativo que justifica o custo, além do simples entretenimento para o consumidor.

De eu vejo 1 para eu ver 2

Para entender completamente os avanços do See 2, é útil estabelecer primeiro a linha de base de seu antecessor. Vejo que eu já ofereci recursos notáveis: geração de vídeo até 1080p, duração de mais de 60 segundos, entendimento de termos cinematográficos, geração de vídeo em vídeo, aplicação de comandos de edição, melhorias na consistência por difusão latente e a implementação de marcas de água sintid e filtros de segurança.

Vejo que 2 representa uma evolução significativa nessa base, com as principais melhorias em várias áreas:

  • Resolução: O salto mais óbvio é o objetivo da resolução do See 2, que atinge até 4K, excedendo o máximo de 1080p de ver 1.
  • Realismo e fidelidade: vejo que 2 introduz "melhorias significativas" em detalhes, realismo e redução de artefatos em comparação com modelos anteriores e concorrentes. Produz menos "alucinações visuais, embora, como você possa verificar o vídeo desta notícia, nem sempre é.
  • Movimento e física: possui "recursos avançados de movimento" e uma melhor simulação da física do mundo real, indo além do foco na consistência de eu vejo 1.
  • Controle da câmara: oferece opções de controle "mais antigas" e mais precisas, expandindo o entendimento dos termos cinematográficos que eu já possuía, vejo 1.
  • Duração do vídeo: o potencial da duração se estende, excedendo o minuto oferecido, vejo 1.
  • Edição: Apresente recursos de edição mais sofisticados, como pintar e pintar (em visualização), que vão além dos comandos da edição descritos para ver 1.

A tabela a seguir compara diretamente as principais habilidades de eu vejo 1 e vejo 2:

Tabela 2: Comparação de recursos que vejo 1 vs. Vejo 2 

Recurso

Habilidade eu vejo 1

Habilidade eu vejo 2

Resolução máxima

1080p

Até 4K (potencial)

Duração máxima (potencial)

> 60 segundos

Até 2 minutos ou mais

Física / movimento

Concentre -se na consistência

Simulação física avançada, movimento realista

Realismo / fidelidade

Alta qualidade

Melhorias significativas e menos artefatos

Controle cinematográfico

Entendimento dos termos

Maior precisão e opções (lentes, etc.)

Funções de edição

Comandos de edição básica

Painting, ultrapassando (visualização)

 

Essa progressão de eu vejo 1 para ver 2 ilustra uma estratégia de melhoria iterativa do Google. Os avanços em resolução, realismo, física e controle não são aleatórios; Eles se concentram nos aspectos fundamentais do controle de qualidade e vídeo que são cruciais para a adoção profissional. Esse padrão sugere um processo de desenvolvimento estruturado, demonstrando um compromisso de longo prazo em refinar a tecnologia subjacente.

Limitações e desafios de ver 2

Apesar de seus recursos impressionantes, vejo que 2 não está isento de limitações e desafios, tanto inerentes à tecnologia atual de geração de vídeo pela IA quanto específica para sua implementação e implantação.

  • A complexidade e a adesão do prompt: embora o entendimento da linguagem natural tenha melhorado acentuadamente, vejo que 2 ainda tem dificuldades com instruções extremamente complexas ou detalhadas, não seguindo todas as instruções com precisão. A engenharia de avisos ainda é crucial para obter bons resultados. Embora os benchmarks indiquem altos pontuações de adesão ao prompt, há casos em que o modelo não atende às expectativas.
  • Artefatos e consistência: a geração de artefatos visuais, embora reduzidos, não foi completamente eliminada. Deformidades ocasionais podem aparecer em assuntos, texto ilegível ou "alucinações", como dedos extras ou objetos inesperados. A consistência temporária pode falhar em cenas muito complexas ou com movimentos rápidos, e a simulação física pode ser quebrada em cenários particularmente complexos. Alguns exemplos gerados pelos usuários foram descritos como "não naturais" ou "perturbadores".
  • Velocidade de geração: o tempo necessário para gerar um vídeo pode ser considerável. Existem comparações que citam cerca de 10 minutos por clipe, o que contrasta com os aproximadamente 5 minutos atribuídos a Sora. No entanto, algumas integrações, como shorts do YouTube, parecem operar muito mais rápido. A latência da API é oficialmente descrita como "normalmente em alguns minutos, mas pode levar mais tempo".
  • Ferramentas de edição: a falta de ferramentas de edição integradas em algumas das interfaces de acesso (API, possivelmente a versão inicial do Gemini Advanced) obriga os usuários a recorrer a software externo para fazer modificações. As funções de edição mais avançadas no vértice IA requerem acesso por lista de usuários permitidos. Sora, por outro lado, inclui ferramentas de edição integradas.
  • Controles disponíveis: Alguns dos primeiros usuários do VIS, notaram que a versão do VI 2 que eles testaram não possuíam controles para a resolução ou duração do vídeo em comparação com Sora. No entanto, o API/VERTEX AI oferece parâmetros para controlar a duração, a taxa de aparência, os avisos negativos e a semente de geração.
  • Acesso e custo: como temos acesso fragmentado e detalhado, listas de espera, restrições geográficas e altos custos da API representam barreiras significativas para adoção. No momento, as taxas em níveis livres são extremamente baixas, embora seja tão recente que seu pouso ainda deva esperar um pouco para avaliá -lo.
  • Restrições de conteúdo e filtros de segurança: os filtros de segurança implementados pelo Google são rigorosos e podem bloquear a geração de conteúdo inesperadamente, mesmo para avisos aparentemente inofensivos. Existem restrições específicas para a geração de pessoas, especialmente menores (controladas por parâmetros como allow_adult ou não perseguindo na API). Os usuários relataram problemas para gerar vídeos, mesmo a partir de imagens que contêm pessoas ou em cenas sem elas. Essa censura excessiva pode tornar a ferramenta inutilizável para determinados casos de uso.
  • Deficiências de capacidade: as versões acessíveis atualmente carecem de geração de som. A dificuldade em gerar mãos realistas ainda é um problema comum em todos os modelos de IA.

Essas limitações mostram um compromisso inerente entre capacidade e usabilidade. Embora eu veja 2 presumem recursos altos de END (potencial 4K, física realista), restrições de velocidade, controles acessíveis (em algumas versões), a falta de edição integrada e filtros de conteúdo rigorosos afetam significativamente a usabilidade prática. Comparado aos concorrentes que poderiam ser mais rápidos, mais integrados ou menos restritivos (como Sora ou pista), ver dois usuários poderiam obter uma qualidade potencial mais alta ao custo de uma experiência mais pesada ou limitada do usuário. Isso pode afetar a adoção, especialmente para fluxos de trabalho iterativos ou sensíveis.

Além disso, relatórios sobre filtros de conteúdo excessivamente agressivos que bloqueiam instruções inofensivas sugerem possível reação exagerada na priorização da segurança e mitigação de riscos da marca pelo Google. Essa cautela pode ser derivada de controvérsias passadas com outros modelos de IA (como imagens de Gêmeos). Embora a segurança seja essencial, filtros muito rígidos podem usar a ferramenta para muitos casos de uso comuns (por exemplo, incentivar fotos de família), criando uma limitação importante impulsionada pela aversão ao risco.

Finalmente, a combinação de lacunas de capacidade (720p/8s vs 4k/minutos), problemas de usabilidade (velocidade, controles variáveis) e barreiras de acesso amplificam o problema de "demonstração vs. realidade". A experiência média do usuário pode estar longe das demonstrações polidas apresentadas pelo Google, o que pode prejudicar a credibilidade se as expectativas não forem gerenciadas cuidadosamente. Essa lacuna significativa entre a promessa e a realidade experimentada pelo usuário pode levar à decepção e uma percepção negativa, apesar da conquista tecnológica que supõe que eu vejo 2.

Eu vejo 2 vs sora e outros

A posição de See 2 no mercado é amplamente definida por sua comparação com seu principal rival, Sora de Openai, bem como a pista.

Comparações diretas (vejo 2 vs. Sora):

  • Qualidade/realismo: inúmeras fontes e usuários iniciais citam para eu vejo 2 como superiores em termos de realismo, simulação física e detalhes visuais. Sora, por outro lado, às vezes mostra dificuldades com detalhes finos (como mãos) e física. Algumas análises sugerem que Sora pode ser mais "artística" ou criativamente flexível.
  • Resolução: Vejo que 2 tem um potencial de até 4K, enquanto Sora é limitada a 1080p.
  • Duração: O potencial de ver 2 (mais de 1-2 minutos) excede a duração citada para Sora (20 ou 60 segundos). No entanto, o acesso atual a eu vejo 2 geralmente é mais curto (8 segundos).
  • Velocidade: Vejo 2 (aprox. 10 min) é geralmente mais lento que Sora (aproximadamente 5 min). É importante notar a existência de "Sora Turbo", uma versão possivelmente mais rápida e mais econômica, mas potencialmente de menor qualidade que as demos originais de Sora.
  • Controle: Vejo que 2 é elogiado por seus controles cinematográficos, enquanto Sora se destaca por sua flexibilidade e funções, como storyboard. No entanto, Mkbhd descobriu que sua versão de teste de visão 2 tinha menos controles que Sora.
  • Edição: Vejo 2 carece de edição integrada (exceto no Vertex AI com a lista de permissões); A Sora oferece ferramentas construídas (remix, loop, mistura).
  • Acesso/Preço: O acesso a eu vejo 2 é fragmentado e o custo da API é alto; Sora é acessível através de assinaturas mais baratas. Atualmente, Sora é mais acessível ao público em geral.

Benchmarking e outros concorrentes:

Os resultados do Benchmark MovieGenbench, onde os avaliadores humanos descreveram vídeos gerados a partir de mais de 1000 instruções, mostraram que vejo 2 superou o Sora Turbo, Kling e Moviegen, tanto na preferência geral quanto na adesão ao prompt (avaliado em 720p com durações variáveis). No entanto, é crucial reconhecer as limitações desses benchmarks, que podem usar resultados selecionados ("escolhidos por cerejeira") ou com base em conjuntos de dados específicos.

O panorama competitivo também inclui a passarela (com Gen-3 Alpha/Gen-4), Kling, AWS Nova Reel, Hailuo, Minimax e potencialmente meta de Moviegen. Alguns usuários até expressam preferência pela pista ou Hailuo sobre a versão atual do SORA, na qual eles têm acesso.

A tabela a seguir oferece um instantâneo comparativo do Ver 2 na frente de seus principais concorrentes:

Tabela 3: Instantâneo comparativo de geradores de vídeo por IA

Recurso

Google eu vejo 2

Openai Sora

Pista (Gen-3/4)

Força principal

Realismo, física, controle cinemático [múltiplo]

Velocidade, flexibilidade criativa, edição

Controle fino, modos específicos (implícitos)

Máx.

4K (potencial)

1080p

Variável (720p-1080p+ de acordo com o plano/versão)

Máx.

2 min+ (potencial)

20s / 60s

~ 15s (gen-2), mais tempo em Gen-3/4 (variável)

Velocidade

Mais lento (~ 10 min)

Mais rápido (~ 5 min)

Rápido (Gen-4 Real Time?)

Ferramentas de edição

Limitado / externo (API)

Integrado (remix, loop, etc.)

Integrado (implícito)

Modelo de acesso

Fragmentado (API, Subs, Labs) [múltiplo]

Assinatura do chatgpt

Assinatura / créditos

Modelo de preço

API: $/s; Sub: US $ 20/mês

Sub: US $ 20/US $ 200 meses

Planos anuais (US $ 144- $ 1500)

 

Essa comparação sugere uma possível segmentação de mercado com base nos pontos fortes de cada ferramenta. Vejo que 2 parecem ir ao uso profissional de alta fidelidade que valoriza a qualidade cinematográfica e a precisão física [muitos trechos]. A Sora poderia atrair um público mais amplo de criadores de conteúdo para redes sociais e experimentação criativa, graças à sua velocidade, flexibilidade e edição integrada. Runway, com sua abordagem iterativa e possivelmente características específicas, poderia encontrar seu nicho entre artistas visuais e profissionais de VFX. O mercado não parece monolítico; É provável que diferentes ferramentas coexistam, atendendo a diferentes segmentos de acordo com suas habilidades centrais.

É crucial aplicar o aviso de "versão liberada" ao avaliar essas comparações. Freqüentemente, a versão pública de um modelo é contrastada (como "Sora Turbo", que, de acordo com alguns usuários, é menor que as demos iniciais) com demos cuidadosamente selecionados ou versões de acesso limitado de outro (vejo 2). Isso dificulta o estabelecimento de julgamentos definitivos. O modelo "melhor" pode depender em grande parte de qual versão específica está sendo avaliada e em que condições, tornando a superioridade uma meta móvel.

Finalmente, há uma hipótese recorrente sobre a vantagem dos dados do Google. Várias fontes especulam que o acesso direto e massivo do Google aos dados do YouTube oferece uma vantagem significativa no treinamento do VI 2 para obter movimentos realistas e entender vários cenários, em comparação com os concorrentes que podem precisar recorrer à eliminação de dados. Embora não seja oficialmente confirmado, esse acesso a um conjunto de dados de vídeo tão amplamente e potencialmente rotulando pode ser um poço competitivo crucial de longo prazo, explicando potencialmente a vantagem percebida do See 2 no realismo e sendo difícil de replicar legalmente e efetivamente por outros.

Segurança e ética em ver 2

O Google enfatizou seu compromisso com os princípios do responsável no desenvolvimento e implantação de eu vejo 2. A empresa afirma ter realizado extensos testes de "equipes vermelhas" e avaliações para impedir a geração de conteúdo que viola suas políticas. Dois principais mecanismos técnicos suportam esta abordagem:

  • Marca de água sintid: essa tecnologia é um recurso de segurança essencial implementado no Ivo 2 e em outros modelos generativos do Google. É uma marca de água digital invisível, diretamente incorporada nos pixels de fotogramas de vídeo durante a geração. Ele foi projetado para ser persistente, mesmo que o vídeo seja editado (cortes, filtros, compactos) e não afete a qualidade visual perceptível. Seu objetivo é permitir a identificação do conteúdo gerado pela IA por meio de ferramentas de detecção especializadas, ajudando assim a combater a desinformação e a atribuição errônea.
  • Filtros de segurança: Vejo 2 incorpora filtros projetados para impedir a criação de conteúdo nocivo. A API inclui parâmetros específicos para controlar a geração de pessoas, como alias_adult (permitir apenas adultos, valor padrão) ou não permitir que as pessoas). No entanto, como mencionado acima, há relatos de usuários que indicam que esses filtros podem ser excessivamente restritivos.

Além dessas medidas técnicas, a implantação de eu vejo 2 faz parte de um panorama ético mais amplo com várias preocupações importantes:

  • DeepFakes e desinformação: a capacidade de gerar vídeos realistas implica o risco inerente de criar fagos de fundo convincentes a disseminar informações falsas ou realizar suplementos maliciosos. O Synthid é a principal defesa técnica do Google contra esse risco.
  • Propriedade intelectual e direitos autorais: a propriedade do conteúdo gerado pela IA permanece uma área legalmente cinza. Além disso, surgem preocupações sobre os dados usados ​​para treinar esses modelos, como o possível uso de vídeos do YouTube sem consentimento explícito para esse fim.
  • Viés: como em qualquer modelo do treinado com grandes conjuntos de dados, existe o risco de ver 2 perpetuar ou amplificar os vieses sociais existentes em seus resultados, embora o Google afirme tomar medidas para mitigá -lo.
  • Deslocamento da mão -de -obra: A capacidade crescente dessas ferramentas gera preocupação com seu impacto nas indústrias criativas, com o potencial deslocamento de papéis de cinema, animação, marketing e design. Um estudo citou estimativas um impacto significativo nos empregos nos EUA para 2026.

A destacação proeminente do sintídeo pelo Google em seus modelos generativos representa uma abordagem técnica proativa para abordar os riscos de desinformação. Embarcar a marca d'água durante a geração é uma medida preventiva integrada, diferentemente da detecção post-hoc. Isso sugere que o Google considera a marca d'água como fundamental para uma implantação responsável. No entanto, o sucesso dessa estratégia depende da verdadeira robustez das marcas de água e da adoção generalizada de ferramentas de detecção confiáveis. É uma solução técnica para um complexo problema sócio-técnico.

A tensão entre a implementação de filtros de segurança robustos e a manutenção da utilidade do usuário, evidenciada por reclamações, sublinha um dilema fundamental para os desenvolvedores de IA: segurança versus utilidade. Filtros excessivamente rígidos podem usar uma ferramenta, enquanto os filtros LAX aumentam os riscos. Encontrar o equilíbrio certo é um desafio contínuo, com implicações significativas para a adoção do usuário e do impacto social. A calibração atual do Google parece se inclinar para a cautela, o que pode afetar sua competitividade se os usuários acharem a ferramenta restritiva demais para suas necessidades.

Finalmente, características como sintídeos e parâmetros de segurança configuráveis ​​(embora imperfeitos) representam a tentativa do Google de incorporar considerações éticas no design do próprio produto. Isso vai além das declarações políticas para alcançar a implementação técnica. Embora a execução possa ter falhas (filtros muito rígidos), a abordagem para integrar a segurança na arquitetura da ferramenta reflete uma posição específica sobre o desenvolvimento responsável da IA, buscando fazer cumprir o uso ético através da própria tecnologia.

Impacto e trajetória futura de ver 2

O lançamento e a evolução do VI 2 têm implicações significativas que se estendem além de suas especificações técnicas, afetando potencialmente várias indústrias e redefinindo os processos criativos.

Impacto nas indústrias criativas:

Vejo que 2 tem o potencial de revolucionar os fluxos de trabalho em vários setores:

  • Cinema: pode agilizar a pré -visualização e os testes de conceitos, gerar ativos de fundo e até produzir curtas -metragens completas. A colaboração com cineastas como Donald Glover e seu estudo Gilga sublinha essa abordagem.
  • Marketing e publicidade: permite uma rápida protótica de anúncios, a geração de conteúdo de publicidade personalizado em escala e a criação de demonstrações de produtos. Empresas como Mondelez, WPP, Agoda, Alphawave e Trakto já estão explorando. A redução drástica dos tempos de produção (de semanas para horas, de acordo com a Kraft Heinz Company) e a menor dependência de filmagens.
  • Videogames: pode ser usado para gerar cinematica ou material promocional realista.
  • Educação e treinamento: facilita a criação de vídeos ilustrativos para explicar conceitos complexos ou simular procedimentos (por exemplo, treinamento médico).
  • Redes sociais: a integração com os shorts do YouTube e a capacidade de gerar clipes curtos e atraentes o tornam uma ferramenta poderosa para criadores de conteúdo em plataformas como o Tiktok.

Democratização vs. Interrupção:

Vejo 2 incorporar uma dualidade: por um lado, democratiza a produção de vídeo de alta qualidade, tornando -o acessível para pequenas empresas e criadores individuais que anteriormente não tinham os recursos ou habilidades técnicas necessárias. Por outro lado, ameaça interromper os papéis tradicionais nas indústrias criativas e alimenta preocupações sobre a proliferação de conteúdo de baixa qualidade ou "AI Slop" gerado automaticamente.

Desenvolvimento futuro:

Os usuários esperam que 2 acabem, incluindo muitas melhorias nas versões subsequentes, como:

  • Expansão da capacidade: melhoria contínua da qualidade, implantação mais ampla das capacidades 4K e mais tempo, e possivelmente a adição de geração de som.
  • Integração do ecossistema: maior integração com outros produtos do Google, como vértice ai, youtube e potencialmente a pesquisa e o ecossistema de gêmeos. A combinação com Gêmeos é contemplada para melhorar a compreensão do mundo físico.
  • Evolução rápida: a taxa de desenvolvimento permanecerá acelerada, promovida por intensa concorrência no campo, com desenvolvimentos esperados nos próximos anos.

A análise sugere que ferramentas como eu vejo 2 não eliminam o trabalho criativo, mas mova o gargalo. A principal dificuldade não reside mais na execução técnica (filmagem, edição, efeitos visuais), mas na ideação, solicita engenharia e edição do conteúdo gerado. O sucesso dependerá cada vez mais da visão criativa e da capacidade de se comunicar efetivamente com a IA. A direção criativa e a capacidade de formular instruções precisas e evocativas se tornam habilidades críticas.

Em vez de uma substituição completa, o impacto mais provável de curto prazo é o surgimento de papéis profissionais "aumentados pela IA". Profissionais de cinema, marketing, design, etc., usarão ferramentas como eu vejo 2 para melhorar sua produtividade, acelerar a iteração e explorar novas possibilidades criativas. Isso exigirá adaptação e desenvolvimento de novas habilidades focadas no uso eficaz dessas ferramentas, transformando os papéis existentes em vez de eliminá -las completamente em muitos casos.

Finalmente, a integração do Ver 2 no ecossistema do Google (Gemini, Vertex AI, YouTube, Labs) é um jogo estratégico claro. Ele procura criar sinergias (use Gemini para gerar instruções, imagem para entradas I2V, dados do YouTube para treinamento) e promover a permanência do usuário em suas plataformas. Essa abordagem holística pode fornecer uma vantagem competitiva sobre as ferramentas independentes, tornando o Google o oferece mais atraente do que a soma simples de suas peças para usuários já adaptados ao seu ecossistema.

Vídeos gerados pela exibição 2

Aqui, deixamos você vários vídeos gerados por eu vejo 2. Como você verá, eu vejo 2 tende a gerar elementos impossíveis, na parte inferior indicamos o Promt usado.

Vídeo de um periquito batendo em um copo de uma janela com o bico, gerado por eu vejo 2

 

Vídeo de um avião de passageiros voando entre nuvens com uma pessoa na fuselagem, gerada por ver 2

 

Disney Movie Tipo de um coelho lendo um livro, gerado pela exibição 2

 


Cosmos

Computação

Economia

Criptomoedas

Em geral

Natureza