Cerca in MDM

Bollettino

Il campo della generazione dei media attraverso l'intelligenza artificiale (AI) si sta evolvendo a un ritmo vertiginoso e la generazione di video è diventato uno dei bordi più attivi e competitivi. In questo contesto, Google ha presentato I See 2, l'evoluzione del suo modello che vedo 1 e la sua proposta di punta per competere in questo spazio emergente. Sviluppato da Google DeepMind, vedo che 2 è posizionato come un modello di ultima generazione progettato per produrre video di alta qualità e realismo, con l'obiettivo di offrire un "controllo creativo senza precedenti".

L'arrivo di Vie 2 si verifica in un momento di intensa competizione, con attori chiave come Openi Sora, Runway, Kling e altri che promuovono l'innovazione a una velocità notevole. Google afferma che vedo 2 ridefinisce la qualità e il controllo nella generazione di video di AI, con il potenziale per trasformare significativamente i flussi di lavoro creativi in ​​vari settori.

Questo articolo ti entra in un'analisi dettagliata di Google che vedo 2. Esaminiamo la sua disponibilità attraverso le diverse piattaforme di Google, le sue specifiche tecniche e i miglioramenti chiave rispetto al suo predecessore, vedo 1. Affroniamo anche le attuali limitazioni del modello, eseguendo un'analisi comparativa con 1 e i concorrenti rilevanti, con le opinioni iniziali e gli utenti iniziali, valutando l'approccio di Google per il suo sviluppo di Google e 

Accesso a vedo 2: piattaforme, prezzi e disponibilità

La strategia di lancio di Google per vedere 2 è caratterizzata da una distribuzione graduale e frammentata. È iniziato con previsioni private per i creatori e i cineasti selezionati e si è progressivamente ampliato attraverso vari prodotti e piattaforme di Google. La data chiave è stata l'annuncio della sua disponibilità il 15 aprile 2025 per gli utenti avanzati di Gemini.

Attualmente, ci sono più percorsi per l'accesso vedo 2, ognuno con le proprie caratteristiche e limitazioni:

  • Gemini API / Vertex AI: questa è la via principale per gli sviluppatori e i clienti aziendali che cercano di integrare vedo 2 nelle loro applicazioni. È considerato pronto per la produzione. L'accesso richiede chiavi API e, per alcune funzioni avanzate come l'edizione specifica della Camera o i controlli, potrebbe essere necessario essere in un elenco di utenti consentiti. Aziende come WPP, Agoda, Mondelez e Poe stanno già usando o testate, vedo 2 tramite Vertex AI.
  • Google AI Studio: offre un ambiente sperimentale per gli sviluppatori per testare le capacità di I See 2. L'accesso iniziale è generalmente gratuito, ma è soggetto a quote di uso molto rigoroso.
  • Videofx (Google Labs): è uno strumento sperimentale rivolto ai creatori, accessibile tramite Google Labs. Richiede la registrazione in una lista d'attesa. Inizialmente, l'accesso precoce era limitato agli utenti di oltre 18 anni negli Stati Uniti, sebbene Google preveda di espandere l'accesso.
  • Gemini Advanced: I Vedo 2 è integrato come funzione per gli abbonati del piano di AI di Google One premium. Permette di generare 8 secondi video con risoluzione 720p, con limiti di uso mensile non esplicitamente definiti (è indicato che saremo avvisati quando stiamo raggiungendo il limite). È disponibile a livello globale in paesi e lingue in cui è supportato le app Gemini.
  • Whisk Animate (Google Labs): questa funzione sperimentale, anche all'interno di Google Labs, utilizza I See 2 per convertire le immagini statiche in video clip animati a 8 secondi. È disponibile per gli abbonati di Google One AI Premium in oltre 60 paesi.
  • Shorts YouTube (schermata da sogno): l'integrazione di VAS 2 su YouTube Shorts viene implementata attraverso la funzione dello schermo dei sogni. Ciò consentirà ai creatori di generare fondi video unici tramite AI o persino creare video clip indipendenti da istruzioni di testo. La distribuzione iniziale sarà effettuata negli Stati Uniti, in Canada, Australia e Nuova Zelanda.

Per quanto riguarda i diversi prezzi, variano significativamente tra queste piattaforme:

  • API/Vertex AI: il costo si basa sul tempo video generato. Le fonti indicano prezzi tra $ 0,35 - $ 0,50 al secondo. Ciò equivale a $ 21- $ 30 al minuto o $ 1260- $ 1800 all'ora di video generati. Esiste una modalità di lancio di Google ha offerto crediti gratuiti ($ 300) e potrebbero esserci periodi iniziali di uso inutile nell'IA Vertex.
  • Abbonamento: l'accesso tramite Gemini Advanced and Whisk Animate è incluso nell'abbonamento a Google One AI Premium ($ 20/mese, € 21,99 in Spagna). In confronto, Sora de Openai è offerta come parte degli abbonamenti a Chatgpt Plus ($ 20/mese) e Pro ($ 200/mese).
  • GRATUITO/SPERIMENTO: piattaforme come Google AI Studio e VideoFX (con lista d'attesa) forniscono un accesso gratuito, ma con grandi limiti in termini di quote e funzionalità disponibili.

La tabella seguente riassume le strade di accesso a I See 2:

Tabella 1: Riepilogo di Google Access Vedo 2

Piattaforma

Metodo di accesso

Utente tipico

Specifiche chiave (accesso corrente)

Modello di costo

Stato di disponibilità

Gemini API/Vertex AI

Chiave API, consentire ELIST (qualche funzione.)

Sviluppatore, azienda

Potenziale 4k/minuti, API: 720p/8s

Al secondo ($ 0,35- $ 0,50)

GA, Anteprima (modifica)

Google AI Studio

Login

Sviluppatore

720p/8s

Gratuito (quote basse)

Sperimentale

Videofx (laboratori)

Accedi + Aspetta

Creatore

720p/8s

Gratuito (quote basse)

Elenco Wait (Reg.)

Gemelli avanzati

Google One AI Premscription.

Consumatore

720p/8s (16: 9)

Abbonamento ($ 20/mese)

GA (globale)

Whisk Animate (Labs)

Google One AI Premscription.

Consumatore, creatore

Immagine video (8s)

Abbonamento ($ 20/mese)

GA (oltre 60 paesi)

Shorts YouTube

Integrato nell'app

Creatore di contenuti

Fondi / clip (8s?)

Gratuito (integrato)

Distribuzione (reg.)

 

Questa diversità di punti di accesso e modelli di prezzo rivela una strategia di accesso sfalsata di Google. Le capacità più alte (potenzialmente 4K, video più lunghi, controlli avanzati) e i prezzi più alti sono riservati agli utenti e agli sviluppatori aziendali attraverso l'API, dove il valore percepito e la volontà di pagare sono maggiori. Allo stesso tempo, vengono offerte versioni più limitate (720p, 8 secondi) ma più accessibili economicamente a consumatori e creatori attraverso abbonamenti gratuiti o prevedi. Questo approccio segmentato consente a Google di gestire la complessità della distribuzione, elevati costi di elaborazione associati alla generazione di video e massimizzare il reddito potenziale, adattandosi alle esigenze di diversi segmenti di mercato.

Tuttavia, questa strategia di prezzo posiziona 2 in una posizione interessante di fronte alla concorrenza. L'alto costo al secondo dell'API ($ 0,35- $ 0,50) contrasta marcatamente con l'inclusione di Sora in abbonamenti relativamente convenienti di CHATGPT ($ 20/$ 200 al mese). Sebbene Sora non abbia ancora un'API pubblica ampiamente disponibile con prezzi definiti, questa differenza fondamentale nel modello di accesso potrebbe generare una pressione competitiva sui prezzi di Google. Se OpenAI o altri concorrenti offrono API con costi unitari più bassi o se i modelli di alta qualità diventano accessibili attraverso abbonamenti più economici, gli utenti professionisti che devono generare grandi volumi video potrebbero trovare alternative più interessanti dell'API di I See 2, potenzialmente costringendo Google a riconsiderare la sua struttura dei prezzi per mantenere la competitività in quella segmento chiave.

Visualizza 2 capacità tecniche: un salto nel video generativo

Vedo che 2 opera principalmente attraverso due modalità: la generazione di testo in video (T2V), in cui una descrizione testuale viene trasformata in una scena video e la generazione di video in video (I2V), che incoraggia un'immagine statica basata su una prompt testuale aggiuntiva per definire lo stile e il movimento. Questo modello è il risultato degli anni di ricerca su Google nella generazione di video, sfruttando le architetture e l'apprendimento di progetti precedenti come GQN, DVD-GAN, Image-Video, Phenaki, Walt, Videopoet e Lumiere, oltre all'architettura del trasformatore e ai modelli Gemini.

Per quanto riguarda le specifiche di produzione tecnica, vedo 2 presenta un progresso significativo, sebbene con importanti sfumature tra il suo potenziale e attuale accesso:

  • Risoluzione: il modello di base è in grado di generare video con una risoluzione fino a 4k.3 Questo è un miglioramento rispetto a I See 1, che ha raggiunto 1080p. Tuttavia, molte delle attuali implementazioni accessibili al pubblico (API/Vertex AI, AI Studio, Gemini Advanced, Videofx) sono limitate a 720p 14 o 1080p in alcuni contesti.
  • Durata del video: vedo che 2 ha la capacità di generare clip che "superano il minuto" o raggiungono fino a due minuti di durata continua e persino potenzialmente di più. Ciò migliora la capacità di vedere 1 (> 60s). Tuttavia, l'accesso attuale tramite API, Studio AI e Gemini Advanced è spesso limitato a 8 secondi clip.
  • Tasso di fotogrammi (velocità del frame): la documentazione dell'AI API e Vertex Specifica una velocità di 24 frame al secondo (FPS). In qualche confronto, vengono menzionati 30-60 FPS.
  • Rapporto di aspetto: attraverso l'API/Vertex AI, i formati 16: 9 (paesaggio) e 9:16 (ritratto) sono supportati. La partenza in Gemini Advanced è 16: 9.
  • Formato di output: il formato MP4 verrà utilizzato per le uscite generate tramite Gemini Advanced.

Oltre alle specifiche di base, vedo 2 introduce miglioramenti qualitativi chiave:

Video del taglio di un pomodoro generato da I See 2

 

  • Comprensione e realismo migliorati: il modello dimostra una comprensione avanzata del linguaggio naturale e della semantica visiva, interpretando precisamente il tono, le sfumature e i dettagli di lunghi suggerimenti. Usa le architetture del trasformatore (possibilmente gli encoder UL2) per elaborare il testo. Fondamentalmente, Google evidenzia la simulazione del mondo reale fisico come miglioramento cruciale. Esempi come la fisica dell'acqua, la carta da bruciare o il taglio preciso di un pomodoro senza influenzare le dita illustrano questa capacità, posizionandola come un elemento chiave di differenziazione contro concorrenti come Sora. Questa comprensione fisica si traduce in una rappresentazione del movimento ad alta precisione, con movimenti fluidi di caratteri e oggetti realistici. Il risultato sono video con maggiore realismo e fedeltà, con dettagli fini e una significativa riduzione di artefatti visivi (come dita extra o oggetti inaspettati) rispetto ai modelli precedenti, usando tecniche come il rendering neuronale di scene adattive e GAS. Inoltre, la coerenza temporanea è stata migliorata, mantenendo la stabilità di caratteri e oggetti in tutti i frame mediante modelli di diffusione latente. Naturalmente, come si può vedere nel video, le immagini impossibili spesso generavano come quel meraviglioso taglio di un pezzo di pomodoro che viene trasformato in mezzo pomodoro dopo essere stato tagliato.
  • Controllo e stili cinematografici: vedo 2 interpreta il "linguaggio unico della cinematografia". Comprendi termini come "Timelapse", "Air Take", "Drone", "Traveling", "Dolly", "Fenterground", "CounterPipicado", "Paneo a destra" e consente persino di specificare il genere desiderato. Offre ampi controlli da camera sull'assunzione, angoli e movimenti, un eccezionale vantaggio chiave. Può simulare effetti di lenti specifici (ad es. "Lensfine da 18 mm" per angolo largo) ed effetti come "profondità di campo ridotta", compresi i lampi di lenti (flare lente). Supporta una vasta gamma di stili visivi e cinematografici.
  • Funzionalità di modifica (anteprima/abilitazione): Vedo 2 introduce funzioni di modifica più sofisticate, sebbene attualmente richiedano l'accesso per elenco di consentito Vertex AI. Questi includono l'edizione mascherata o la difesa, per eliminare elementi indesiderati (loghi, distrazioni) nelle aree video definite e di palatta, per estendere l'inquadramento del video che riempie generativamente le nuove aree, utili per cambiare le relazioni di aspetto. Viene inoltre menzionato l'interpolazione per creare transizioni morbide tra immagini fisse e funzionalità di modifica generale per perfezionare o rivedere i contenuti senza iniziare da zero.

La forte enfasi di Google sulla comprensione della fisica e del movimento da parte di I See 2 non è accidentale. Sembra essere un focus architettonico centrale, volto a correggere un'importante debolezza osservata in modelli e concorrenti precedenti come Sora (evidenziato dall'esempio del taglio del pomodoro). Posizionando il realismo come proposta di valore principale, Google punta direttamente ai casi professionali (anteprima del film, pubblicità, formazione) in cui il movimento anti -naturale rompe l'immersione e la credibilità. Questa attenzione differenzia strategicamente, vedo 2 sul mercato, attirando gli utenti che danno la priorità alla fedeltà, forse, pura velocità o libertà creativa più astratta.

Tuttavia, esiste un notevole divario tra il potenziale annunciato e la realtà accessibile a molti utenti. La differenza tra la capacità promossa di generare video 4K di diversi minuti e la vera esperienza di ottenere clip da 720p e 8 secondi crea una sfida di marketing e può generare delusione. Suggerisce che, sebbene il modello centrale sia potente, arrampicarlo e ottimizzarlo per un accesso ampio e conveniente rimane un notevole ostacolo tecnico, probabilmente a causa di elevati costi computazionali, tempi di inferenza o possibili problemi di coerenza e sicurezza nelle durate più lunghe. Questa discrepanza influisce sulla percezione dell'utente: vedono dimostrazioni sorprendenti ma interagiscono con uno strumento meno capace, che potrebbe danneggiare la reputazione del prodotto nonostante il suo potenziale sottostante.

Infine, l'enfasi su specifici controlli cinematografici (lenti, tipi di piano, profondità sul campo) è chiaramente orientata ai cineasti e ai creatori professionisti. Questo approccio è allineato al più alto modello di prezzi delle collaborazioni API e aziendali, suggerendo un obiettivo iniziale di irrompere in flussi di lavoro professionali. Google sembra identificare un mercato principale nella creazione di contenuti professionali (pubblicità, anteprima del film, marketing) in cui questi controlli offrono un valore significativo che giustifica il costo, oltre a un semplice intrattenimento per il consumatore.

Da io vedo 1 a io vedo 2

Per comprendere appieno i progressi di See 2, è utile stabilire prima la linea di base del suo predecessore. Vedo 1 già offerto funzionalità notevoli: generazione di video fino a 1080p, durata di oltre 60 secondi, comprensione dei termini cinematografici, generazione di video a video, applicazione di comandi di modifica, miglioramenti in coerenza per diffusione latente e filtri di sicurezza sinterizzato.

Vedo che 2 rappresenta una significativa evoluzione su questa base, con miglioramenti chiave in diverse aree:

  • Risoluzione: il salto più ovvio è l'obiettivo di risoluzione di Sew 2, che raggiunge fino a 4K, superando il massimo di 1080p di See 1.
  • Realismo e fedeltà: vedo che 2 introduce "miglioramenti significativi" in dettaglio, realismo e riduzione dei manufatti rispetto ai modelli precedenti e concorrenti. Produce meno "allucinazioni visive, anche se come puoi controllare nel video di questa notizia non è sempre.
  • Movimento e fisica: ha "capacità di movimento avanzate" e una migliore simulazione della fisica del mondo reale, andando oltre l'attenzione sulla coerenza di I See 1.
  • Controllo della camera: offre opzioni di controllo della fotocamera "più vecchie" e più precise, ampliando la comprensione dei termini cinematografici che già possedevo vedo 1.
  • Durata del video: il potenziale della durata si estende, superando il minuto offerto, vedo 1.
  • Edizione: introdurre funzionalità di editing più sofisticate come l'ingresso e il dipattinatura (in anteprima), che vanno oltre i comandi dell'edizione descritti per vedere 1.

La tabella seguente confronta direttamente le abilità chiave di I Vedo 1 e vedo 2:

Tabella 2: confronto delle funzionalità vedo 1 vs. Vedo 2 

Caratteristica

Abilità che vedo 1

Abilità che vedo 2

Risoluzione massima

1080p

Fino a 4K (potenziale)

Durata massima (potenziale)

> 60 secondi

Fino a 2 minuti o più

Fisica / movimento

Concentrati sulla coerenza

Simulazione fisica avanzata, movimento realistico

Realismo / fedeltà

Di alta qualità

Miglioramenti significativi, meno artefatto

Controllo cinematografico

Comprensione dei termini

Maggiore precisione e opzioni (lenti, ecc.)

Funzioni di modifica

Comandi di modifica di base

Dipingendo, dipinte (anteprima)

 

Questa progressione di I See 1 to I See 2 illustra una strategia di miglioramento iterativo di Google. I progressi nella risoluzione, nel realismo, nella fisica e nel controllo non sono casuali; Si concentrano su aspetti fondamentali della qualità e del controllo video che sono cruciali per l'adozione professionale. Questo modello suggerisce un processo di sviluppo strutturato, dimostrando un impegno a lungo termine per perfezionare la tecnologia sottostante.

Limitazioni e sfide di See 2

Nonostante le sue capacità impressionanti, vedo che 2 non è esente da limitazioni e sfide, sia inerente all'attuale tecnologia di generazione di video da parte dell'IA e specifico per la sua implementazione e distribuzione.

  • Complessità e aderenza del prompt: sebbene la comprensione del linguaggio naturale sia migliorata notevolmente, vedo che 2 ha ancora difficoltà con istruzioni estremamente complesse o dettagliate, non riuscendo a seguire tutte le istruzioni con precisione. L'ingegneria richiede è ancora fondamentale per ottenere buoni risultati. Mentre i parametri di riferimento indicano punteggi elevati di adesione al prompt, ci sono casi in cui il modello non soddisfa le aspettative.
  • Artefatti e coerenza: la generazione di artefatti visivi, sebbene ridotti, non è stata completamente eliminata. Deformità occasionali possono apparire in soggetti, testo illeggibili o "allucinazioni" come dita extra o oggetti inaspettati. La coerenza temporanea può fallire in scene molto complesse o con movimenti rapidi e la simulazione fisica può essere rotta in scenari particolarmente complessi. Alcuni esempi generati dagli utenti sono stati descritti come "innaturali" o "inquietanti".
  • Velocità di generazione: il tempo necessario per generare un video può essere considerevole. Ci sono confronti che citano circa 10 minuti per clip, che contrasta con i circa 5 minuti attribuiti a Sora. Tuttavia, alcune integrazioni, come i pantaloncini YouTube, sembrano funzionare molto più velocemente. La latenza dell'API è ufficialmente descritta come "in genere in pochi minuti, ma potrebbe richiedere più tempo".
  • Strumenti dell'edizione: la mancanza di strumenti di modifica integrati in alcune delle interfacce di accesso (API, possibilmente la versione iniziale di Gemini Advanced) costringe gli utenti a ricorrere a software esterno per apportare modifiche. Le funzioni di modifica più avanzate in Vertex AI richiedono l'accesso tramite elenco di utenti consentiti. Sora, d'altra parte, include strumenti di modifica integrati.
  • Controlli disponibili: alcuni dei primi utenti di VIS, hanno notato che la versione di VI 2 che hanno testato mancavano di controlli per la risoluzione o la durata del video rispetto a Sora. Tuttavia, l'IA API/Vertex offre parametri per controllare la durata, il rapporto di aspetto, i prompt negativi e il seme di generazione.
  • Accesso e costo: come abbiamo dettagliato, accesso frammentato, liste di attesa, restrizioni geografiche e costi elevati dell'API rappresentano ostacoli significativi per l'adozione. Al momento le commissioni a livelli liberi sono estremamente basse, sebbene essendo così recenti il ​​loro atterraggio dovrà comunque aspettare un po 'per valutarlo.
  • Restrizioni dei contenuti e filtri di sicurezza: i filtri di sicurezza implementati da Google sono severi e possono bloccare inaspettatamente la generazione di contenuti, anche per istruzioni apparentemente innocue. Esistono restrizioni specifiche per la generazione di persone, in particolare minori (controllate da parametri come abilit_adult o non consentire nell'API). Gli utenti hanno riportato problemi per generare video anche da immagini contenenti persone o nelle scene senza di loro. Questa censura eccessiva può rendere lo strumento inutilizzabile per determinati casi d'uso.
  • Carenze di capacità: le versioni accessibili attualmente mancano di una generazione solida. La difficoltà nel generare mani realistiche è ancora un problema comune in tutti i modelli di intelligenza artificiale.

Queste limitazioni mostrano un impegno intrinseco tra capacità e usabilità. Sebbene vedo 2 presumi capacità di alta end (potenziale 4K, fisica realistica), restrizioni di velocità, controlli accessibili (in alcune versioni), la mancanza di editing integrati e filtri di contenuto rigorosi hanno un impatto significativo sull'usabilità pratica. Rispetto ai concorrenti che potrebbero essere più veloci, più integrati o meno restrittivi (come Sora o Runway), vedere 2 utenti potrebbero ottenere una qualità potenziale più elevata al costo di un'esperienza utente più ingombrante o limitata. Ciò può influire sull'adozione, in particolare per i flussi di lavoro iterativi o sensibili.

Inoltre, i rapporti sui filtri di contenuto eccessivamente aggressivi che bloccano i prompt innocui suggeriscono possibili eccessive nella priorità della sicurezza e della mitigazione del rischio per il marchio da parte di Google. Questa cautela potrebbe essere derivata da controversie passate con altri modelli di intelligenza artificiale (come le immagini dei gemelli). Mentre la sicurezza è essenziale, i filtri troppo rigorosi possono utilizzare lo strumento per molti casi d'uso comuni (ad esempio incoraggiare le foto di famiglia), creando un'importante limitazione guidata dalla avversione al rischio.

Infine, la combinazione di lacune di capacità (720p/8s vs 4K/minuti), problemi di usabilità (velocità, controlli variabili) e barriere di accesso amplificano il problema di "dimostrazione vs. realtà". L'esperienza media dell'utente può essere lontana dalle dimostrazioni raffinate presentate da Google, che potrebbero danneggiare la credibilità se le aspettative non sono gestite attentamente. Questo significativo divario tra la promessa e la realtà sperimentata dall'utente può portare alla delusione e alla percezione negativa, nonostante il rendimento tecnologico che suppone che io veda 2.

Vedo 2 vs Sora e altri

La posizione di See 2 sul mercato è in gran parte definita dal suo confronto con il suo principale rivale, Sora de Openai, così come Runway.

Confronti diretti (vedo 2 vs. Sora):

  • Qualità/realismo: numerose fonti iniziali e utenti citano per vedere 2 come superiori in termini di realismo, simulazione fisica e dettagli visivi. Sora, d'altra parte, a volte mostra difficoltà con dettagli fini (come le mani) e la fisica. Alcune analisi suggeriscono che Sora potrebbe essere più "artistica" o creativamente flessibile.
  • Risoluzione: vedo che 2 ha un potenziale fino a 4K, mentre Sora è limitata a 1080p.
  • Durata: il potenziale di See 2 (più di 1-2 minuti) supera la durata citata per Sora (20 o 60 secondi). Tuttavia, l'accesso attuale a I See 2 è generalmente più breve (8 secondi).
  • Speed: vedo 2 (circa 10 min) è generalmente più lento di Sora (circa 5 min). È importante notare l'esistenza di "Sora Turbo", una versione forse più veloce ed economica, ma potenzialmente di qualità inferiore rispetto alle demo originali di Sora.
  • Controllo: vedo che 2 è elogiato dai suoi controlli cinematografici, mentre Sora si distingue per la sua flessibilità e funzioni come lo storyboarding. Tuttavia, MKBHD ha scoperto che la sua versione di test di View 2 aveva meno controlli di Sora.
  • EDIZIONE: IE VEDI 2 mancano di montaggio integrato (tranne in vertice AI con permetro); Sora offre strumenti in costruiti -in (remix, loop, miscela).
  • Accesso/prezzo: l'accesso a I See 2 è frammentato e il costo dell'API è elevato; Sora è accessibile attraverso abbonamenti più economici. Attualmente, Sora è più accessibile al pubblico.

Benchmarking e altri concorrenti:

I risultati di Benchmark MovieGenbench, in cui i valutatori umani hanno descritto i video generati da oltre 1000 istruzioni, hanno mostrato che vedo 2 superati Sora Turbo, Kling e MovingGen sia in preferenza generale che in aderenza al prompt (valutato a 720p con durate variabili). Tuttavia, è fondamentale riconoscere i limiti di questi parametri di riferimento, che possono utilizzare i risultati selezionati ("raccolti da ciliegia") o sulla base di set di dati specifici.

Il panorama competitivo include anche pista (con Gen-3 Alpha/Gen-4), Kling, AWS Nova Reel, Hailuo, Minimax e potenzialmente MovingGen Obiettivo. Alcuni utenti esprimono persino la preferenza per la pista o Hailuo sull'attuale versione di Sora a cui hanno accesso.

La tabella seguente offre un'istantanea comparativa di Ver 2 davanti ai suoi principali concorrenti:

Tabella 3: istantanea comparativa dei generatori di video di AI

Caratteristica

Google vedo 2

Openi Sora

Runway (Gen-3/4)

Forza principale

Realismo, fisica, controllo cinematico [multiplo]

Velocità, flessibilità creativa, edizione

Controllo fine, modalità specifiche (implicite)

Max.

4K (potenziale)

1080p

Variabile (720p-1080p+ secondo piano/versione)

Max.

2 min+ (potenziale)

20s / 60s

~ 15s (Gen-2), più lungo in Gen-3/4 (variabile)

Velocità

Più lento (~ 10 min)

Più veloce (~ 5 min)

Veloce (Gen-4 in tempo reale?)

Strumenti dell'edizione

Limitato / esterno (API)

Integrato (remix, loop, ecc.)

Integrato (implicito)

Modello di accesso

Frammentati (API, sottotitoli, laboratori) [multiplo]

Abbonamento chatgpt

Abbonamento / crediti

Modello di prezzo

API: $/sec; Sub: $ 20/mese

Sub: $ 20/$ 200 mesi

Piani annuali ($ 144- $ 1500)

 

Questo confronto suggerisce una possibile segmentazione del mercato basata sui punti di forza di ciascun strumento. Vedo che 2 sembra andare all'uso professionale di alta fedeltà che valorizza la qualità cinematografica e la precisione fisica [molti frammenti]. Sora potrebbe attirare un pubblico più ampio di creatori di contenuti per i social network e la sperimentazione creativa, grazie alla loro velocità, flessibilità e editing integrato. Runway, con il suo approccio iterativo e forse caratteristiche specifiche, poteva trovare la sua nicchia tra artisti visivi e professionisti VFX. Il mercato non sembra monolitico; È probabile che coesistono strumenti diversi, servendo segmenti diversi in base alle loro capacità centrali.

È fondamentale applicare l'avvertimento della "versione rilasciata" quando si valuta questi confronti. Spesso, la versione pubblica di un modello è contrastata (come "Sora Turbo", che secondo alcuni utenti è inferiore alle demo iniziali) con demo attentamente selezionate o versioni di accesso limitato di un altro (vedo 2). Ciò rende difficile stabilire giudizi definitivi. Il modello "migliore" può dipendere in gran parte da quale versione specifica viene valutata e in quali condizioni, rendendo la superiorità un obiettivo mobile.

Infine, esiste un'ipotesi ricorrente sul vantaggio dei dati di Google. Diverse fonti ipotizzano che l'accesso diretto e massiccio di Google ai dati di YouTube ti offra un vantaggio significativo nella formazione di VI 2 per ottenere movimenti realistici e comprendere vari scenari, rispetto ai concorrenti che potrebbero essere necessari a ricorrere al raschiatura dei dati. Sebbene non sia ufficialmente confermato, questo accesso a una serie di dati video in modo così ampiamente e potenzialmente etichettando potrebbe essere una fossa competitiva cruciale a lungo termine, spiegando potenzialmente il vantaggio percepito di See 2 nel realismo ed essere difficile da replicare legalmente ed efficacemente da altri.

Sicurezza ed etica in See 2

Google ha sottolineato il suo impegno nei confronti dei principi del responsabile nello sviluppo e nello spiegamento di I See 2. La società afferma di aver effettuato estesi test di "squadra rossa" e valutazioni per prevenire la generazione di contenuti che violano le sue politiche. Due principali meccanismi tecnici supportano questo approccio:

  • Brand sull'acqua Synthid: questa tecnologia è una funzionalità di sicurezza chiave implementata in IVO 2 e in altri modelli generativi di Google. È un marchio di acqua digitale invisibile, direttamente incorporato nei pixel dei fotogrammi video durante la generazione. È progettato per essere persistente anche se il video viene modificato (tagli, filtri, compresso) e non influisce sulla qualità visiva percepibile. Il suo scopo è quello di consentire l'identificazione del contenuto generato dall'IA attraverso strumenti di rilevamento specializzati, contribuendo così a combattere la disinformazione e l'attribuzione errata.
  • Filtri di sicurezza: vedo che 2 incorpora filtri progettati per impedire la creazione di contenuti dannosi. L'API include parametri specifici per controllare la generazione di persone, come abilit_adult (consenti solo adulti, valore predefinito) o non consentire (non permettendo le persone). Tuttavia, come accennato in precedenza, ci sono segnalazioni di utenti che indicano che questi filtri possono essere eccessivamente restrittivi.

Oltre a queste misure tecniche, lo spiegamento di I See 2 fa parte di un panorama etico più ampio con diverse preoccupazioni chiave:

  • DeepFakes e disinformazione: la capacità di generare video realistici comporta il rischio intrinseco di creare profondità convincenti a diffondere informazioni false o eseguire supplementi dannosi. Synthid è la principale difesa tecnica di Google contro questo rischio.
  • Proprietà intellettuale e copyright: la proprietà del contenuto generato da AI rimane un'area legalmente grigia. Inoltre, sorgono preoccupazioni per i dati utilizzati per formare questi modelli, come il possibile utilizzo dei video di YouTube senza esplicito consenso a tale scopo.
  • Bias: come con qualsiasi modello di addestrato con grandi set di dati, esiste un rischio che vedo 2 perpetuare o amplificare i pregiudizi sociali esistenti nei suoi risultati, sebbene Google sostenga di adottare misure per mitigarlo.
  • Spostamento del lavoro: la crescente capacità di questi strumenti genera preoccupazione per il loro impatto sulle industrie creative, con il potenziale spostamento di ruoli cinematografici, animazione, marketing e design. Uno studio ha citato stima un impatto significativo sui posti di lavoro negli Stati Uniti per il 2026.

L'importante distribuzione di Synthid da parte di Google nei suoi modelli generativi rappresenta un approccio tecnico proattivo per affrontare i rischi di disinformazione. L'organizzazione del segno dell'acqua durante la generazione è una misura preventiva integrata, a differenza del rilevamento post-hoc. Ciò suggerisce che Google considera la filigrana fondamentale per una distribuzione responsabile. Tuttavia, il successo di questa strategia dipende dalla vera robustezza dei marchi idrici e dall'adozione generalizzata di strumenti di rilevamento affidabili. È una soluzione tecnica per un problema socio-tecnico complesso.

La tensione tra l'implementazione di solidi filtri di sicurezza e il mantenimento dell'utilità per l'utente, evidenziata da reclami, sottolinea un dilemma fondamentale per gli sviluppatori di intelligenza artificiale: sicurezza vs. utilità. I filtri eccessivamente severi possono utilizzare uno strumento, mentre i filtri lassisti aumentano i rischi. Trovare il giusto equilibrio è una sfida continua, con implicazioni significative per l'adozione dell'utente e dell'impatto sociale. L'attuale calibrazione di Google sembra inclinarsi verso cautela, il che potrebbe influire sulla sua competitività se gli utenti trovano lo strumento troppo restrittivo alle loro esigenze.

Infine, caratteristiche come i parametri di sicurezza sintimi e configurabili (sebbene imperfetti) rappresentano il tentativo di Google di incorporare considerazioni etiche nel design del prodotto. Questo va oltre le dichiarazioni politiche per raggiungere l'implementazione tecnica. Mentre l'esecuzione può avere guasti (filtri troppo rigidi), l'approccio per integrare la sicurezza nell'architettura dello strumento riflette una posizione specifica sullo sviluppo responsabile dell'IA, cercando di far rispettare l'uso etico attraverso la tecnologia stessa.

Impatto e traiettoria futura di Ver 2

Il lancio e l'evoluzione di VI 2 hanno implicazioni significative che si estendono oltre le loro specifiche tecniche, influenzando potenzialmente più industrie e ridefinendo i processi creativi.

Impatto sulle industrie creative:

Vedo che 2 ha il potenziale per rivoluzionare i flussi di lavoro in diversi settori:

  • Cinema: può accelerare l'anteprima e il test dei concetti, generare risorse di fondo e persino produrre cortometraggi completi. La collaborazione con cineasti come Donald Glover e il suo studio Gilga sottolinea questo approccio.
  • Marketing e pubblicità: consente una rapida prototizzazione degli annunci, la generazione di contenuti pubblicitari personalizzati su vasta scala e la creazione di dimostrazioni di prodotto. Aziende come Mondelez, WPP, Agoda, Alphawave e Trakto lo stanno già esplorando. La drastica riduzione dei tempi di produzione (da settimane a ore, secondo la società Kraft Heinz) e la minore dipendenza dalle riprese di serie.
  • Videoghi: può essere utilizzato per generare materiale promozionale cinematografico o realistico.
  • Istruzione e formazione: facilita la creazione di video illustrativi per spiegare concetti complessi o simulare procedure (ad esempio, formazione medica).
  • I social network: l'integrazione con i pantaloncini YouTube e la capacità di generare clip brevi e attraenti lo rendono uno strumento potente per i creatori di contenuti su piattaforme come Tiktok.

Democratizzazione vs. interruzione:

Vedo 2 incarna una dualità: da un lato, democratizza la produzione di video di alta qualità, rendendolo accessibile a piccole aziende e singoli creatori che in precedenza mancavano delle risorse o delle capacità tecniche necessarie. D'altra parte, minaccia di interrompere i ruoli tradizionali nelle industrie creative e mangela preoccupazioni per la proliferazione di contenuti di bassa qualità o "SLOP AI" generati automaticamente.

Sviluppo futuro:

Gli utenti sperano di vedere 2 finali inclusi molti miglioramenti nelle versioni successive come:

  • Espansione della capacità: miglioramento continuo della qualità, distribuzione più ampia di capacità 4K e più a lungo e possibilmente l'aggiunta della generazione del suono.
  • Integrazione dell'ecosistema: maggiore integrazione con altri prodotti Google come Vertex AI, YouTube e potenzialmente la ricerca e l'ecosistema Gemelli. La combinazione con Gemelli è prevista per migliorare la comprensione del mondo fisico.
  • Evoluzione rapida: il tasso di sviluppo rimarrà accelerato, promosso da intensa concorrenza sul campo, con sviluppi previsti nei prossimi anni.

L'analisi suggerisce che strumenti come io vedo 2 non eliminano il lavoro creativo, ma muovono il collo di bottiglia. La principale difficoltà non risiede più nell'esecuzione tecnica (riprese, edizione, effetti visivi), ma su ideazione, richiede l'ingegneria e l'edizione del contenuto generato. Il successo dipenderà sempre di più dalla visione creativa e dalla capacità di comunicare efficacemente con l'IA. La direzione creativa e la capacità di formulare istruzioni precise ed evocative diventano abilità critiche.

Invece di una sostituzione completa, l'impatto a breve termine più probabile è l'emergere di ruoli professionali "aumentati dall'intelligenza artificiale". I professionisti del cinema, del marketing, del design, ecc., Utilizzeranno strumenti come I VEDI 2 per migliorare la loro produttività, accelerare l'iterazione ed esplorare nuove possibilità creative. Ciò richiederà l'adattamento e lo sviluppo di nuove competenze incentrate sull'uso efficace di questi strumenti, trasformando i ruoli esistenti invece di eliminarli completamente in molti casi.

Infine, l'integrazione di VER 2 nell'ecosistema di Google (Gemini, Vertex AI, YouTube, Labs) è un chiaro gioco strategico. Cerca di creare sinergie (utilizzare Gemini per generare prompt, immagine per ingressi i2v, dati YouTube per la formazione) e promuovere la permanenza degli utenti all'interno delle loro piattaforme. Questo approccio olistico potrebbe fornire un vantaggio competitivo rispetto agli strumenti indipendenti, rendendo l'offerta di Google più attraente della semplice somma delle sue parti per gli utenti già adattati al proprio ecosistema.

Video generati da Visualizza 2

Qui ti lasciamo diversi video generati da Io vedo 2. Come vedrai, vedo che 2 tende a generare elementi impossibili, in fondo indiciamo che il promt usato.

Video di un parrocchetto colpendo un bicchiere di una finestra con il becco, generato da I See 2

 

Video di un aereo passeggero che vola tra le nuvole con una persona sulla fusoliera, generata da See 2

 

Disney Movie tipo di coniglio che legge un libro, generato dalla Visualizza 2

 


Cosmo

Calcolo

Economia

Criptovalute

Generale

Natura