Das Gebiet der Mediengenerierung durch künstliche Intelligenz (KI) entwickelt sich in einem schwindelerregenden Tempo, und die Videogenerierung ist zu einer der aktivsten und wettbewerbsfähigsten Grenzen geworden. In diesem Zusammenhang hat Google I Siehe 2, die Entwicklung seines Modells I Siehe 1 und sein Flaggschiff -Vorschlag, um in diesem aufstrebenden Raum zu konkurrieren. Ich sehe 2, das von Google DeepMind entwickelt wurde, und ist als Modell der neuesten Generation, die hochwertige und realismus -Videos erzeugt, mit dem Ziel, eine "beispiellose kreative Kontrolle" anzubieten.
Die Ankunft von VIE 2 erfolgt in einem Moment intensiver Wettbewerb, wobei wichtige Schauspieler wie Openai Sora, Runway, Kling und andere Innovationen mit bemerkenswerter Geschwindigkeit fördern. Google gibt an, dass 2 Qualität und Kontrolle in der Generierung von Videos von AI neu definiert, um kreative Workflows erheblich in verschiedene Branchen umzuwandeln.
In diesem Artikel werden Sie in eine detaillierte Analyse von Google verwendet. Ich sehe 2. Wir untersuchen seine Verfügbarkeit über die verschiedenen Google -Plattformen, seine technischen Spezifikationen und die wichtigsten Verbesserungen in Bezug auf den Vorgänger. Ich sehe 1. Wir befassen uns auch mit den aktuellen Einschränkungen des Modells, der Durchführung einer vergleichenden Analyse mit I -Siehe 1 und der relevanten Konkurrenz, mit Meinungen der ursprünglichen Experten und der Benutzer, die den Google -Ansatz für den Google -Ansatz und die Bekämpfung des Google -Ansatzes und die Verwaltung von Google und die Verweilung und die Bekämpfung von Erhöhungen und -verlagerung durchführen.
Zugriff Ich sehe 2: Plattformen, Preise und Verfügbarkeit
Die Startstrategie von Google, um 2 zu sehen, ist durch eine schrittweise und fragmentierte Bereitstellung gekennzeichnet. Es begann mit privaten Vorhersagen für Schöpfer und ausgewählte Filmemacher und hat sich zunehmend durch verschiedene Google -Produkte und -plattformen erweitert. Der Schlüsseldatum war die Ankündigung seiner Verfügbarkeit am 15. April 2025 für Gemini Advanced Users.
Derzeit gibt es mehrere Routen, auf die ich zugreifen kann. Ich sehe 2 mit jeweils eigenen Merkmalen und Einschränkungen:
- Gemini API / Vertex AI: Dies ist die Hauptroute für Entwickler und Geschäftskunden, die versuchen, 2 in ihre eigenen Anwendungen zu integrieren. Es gilt als Produktionsbereit. Der Zugriff erfordert API -Schlüssel und für bestimmte erweiterte Funktionen wie die spezifische Kammerausgabe oder die Steuerung kann es möglicherweise in einer Liste der zulässigen Benutzer enthalten sein. Unternehmen wie WPP, Agoda, Mondelez und POE verwenden bereits oder testen Ich sehe 2 bis Vertex AI.
- Google AI Studio: Bietet Entwicklern eine experimentelle Umgebung, um die Funktionen von I Siehe zu testen. Der anfängliche Zugriff ist normalerweise kostenlos, unterliegt jedoch sehr strengen Gebrauchsquoten.
- VIDEOFX (Google Labs): Es handelt sich um ein experimentelles Tool für Ersteller, das über Google Labs zugänglich ist. Es erfordert die Registrierung in einer Warteliste. Anfänglich beschränkte sich der frühe Zugriff auf Benutzer über 18 in den USA, obwohl Google den Zugriff erweitert.
- Gemini Advanced: Ich sehe, 2 ist als Funktion für Abonnenten des Premium Google One AI -Plan integriert. Es ermöglicht es, 8 Sekunden Videos bei 720p -Auflösung zu generieren, wobei monatliche Nutzungsgrenzen nicht explizit definiert sind (es wird angezeigt, dass wir benachrichtigt werden, wenn wir die Grenze erreichen). Es ist weltweit in Ländern und Sprachen erhältlich, in denen Gemini -Apps unterstützt werden.
- Whisk Animate (Google Labs): Diese experimentelle Funktion auch in Google Labs sehe 2, um statische Bilder in 8 -Sekunden -Animationsvideoclips umzuwandeln. Es ist für Abonnenten von Google One AI Premium in mehr als 60 Ländern erhältlich.
- YouTube -Shorts (Traumbildschirm): Die Integration von Vas 2 auf YouTube -Shorts wird durch die Dream -Bildschirmfunktion implementiert. Auf diese Weise können Ersteller eindeutige Videofonds über KI generieren oder sogar unabhängige Videoclips aus Texteingabeaufforderungen erstellen. Der erste Einsatz wird in den USA, Kanada, Australien und Neuseeland erstellt.
Was die verschiedenen Preise betrifft, variieren sie zwischen diesen Plattformen erheblich:
- API/Vertex AI: Die Kosten basieren auf der generierten Videozeit. Die Quellen geben die Preise zwischen 0,35 und 0,50 USD pro Sekunde an. Dies entspricht 21 bis 30 US-Dollar pro Minute oder 1260 bis 1800 US-Dollar pro Stunde generiertes Video. Der Google -Startmodus hat kostenlose Credits (300 US -Dollar) angeboten, und es könnte anfängliche Zeiträume der nutzlosen Verwendung in der Vertex -KI geben.
- Abonnement: Der Zugang über Gemini Advanced and Whisk Animate ist im Abonnement für Google One AI Premium (20 USD/Monat, 21,99 € in Spanien) enthalten. Im Vergleich dazu wird Sora de Openai im Rahmen der Abonnements für Chatgpt Plus (20 USD/Monat) und Pro (200 USD/Monat) angeboten.
- Kostenlos/experimentell: Plattformen wie Google AI Studio und VideoOFX (mit Warteliste) bieten kostenlosen Zugriff, jedoch mit großen Einschränkungen hinsichtlich der verfügbaren Quoten und Funktionen.
Die folgende Tabelle fasst die Zugangsstraßen zusammen, siehe 2:
Tabelle 1: Google -Zugriffszusammenfassung Ich sehe 2
Plattform |
Zugangsmethode |
Typischer Benutzer |
Schlüsselspezifikationen (aktueller Zugriff) |
Kostenmodell |
Verfügbarkeitszustand |
---|---|---|---|---|---|
Gemini API/Vertex AI |
API -Schlüssel, Zulassliste (einige Funktionen). |
Entwickler, Unternehmen |
4K/Minuten Potential, API: 720p/8s |
Pro Sekunde (0,35 bis 0,50 USD) |
GA, Vorschau (Bearbeiten) |
Google AI Studio |
Login |
Entwickler |
720p/8s |
Kostenlos (niedrige Quoten) |
Experimental |
Videofx (Labors) |
Login + Warten Sie |
Schöpfer |
720p/8s |
Kostenlos (niedrige Quoten) |
Liste warten (Reg.) |
Gemini Fortgeschrittene |
Google One KI Premcription. |
Verbraucher |
720p/8s (16: 9) |
Abonnement (20 USD/Monat) |
GA (global) |
Animate (Labor) verquirlen (Labors) |
Google One KI Premcription. |
Verbraucher, Schöpfer |
Videobild (8s) |
Abonnement (20 USD/Monat) |
GA (über 60 Länder) |
YouTube -Shorts |
In App integriert |
Inhaltsersteller |
Fonds / Clips (8s?) |
Frei (integriert) |
Einsatz (Reg.) |
Diese Vielfalt an Zugangspunkten und Preismodellen zeigt eine gestaffelte Strategie für den Zugriff von Google. Die höchsten Kapazitäten (potenziell 4K, längere Videos, fortschrittliche Kontrollen) und die höchsten Preise sind für Geschäftsbenutzer und Entwickler über die API vorbehalten, bei denen der wahrgenommene Wert und die Zahlungsbereitschaft größer sind. Gleichzeitig werden nur begrenzte Versionen angeboten (720p, 8 Sekunden), aber für Verbraucher und Schöpfer wirtschaftlicher durch kostenlose Abonnements oder Vorhersagen zugänglicher. Dieser segmentierte Ansatz ermöglicht es Google, die Komplexität der Bereitstellung zu verwalten, hohe Verarbeitungskosten im Zusammenhang mit der Videoerzeugung im Zusammenhang mit dem potenziellen Einkommen zu maximieren, wodurch sich die Bedürfnisse verschiedener Marktsegmente anpassen.
Diese Preisstrategie setzt jedoch 2 in einer interessanten Position vor dem Wettbewerb. Die hohen Kosten pro Sekunde der API (0,35 bis 0,50 USD) stehen deutlich zur Aufnahme von Sora in relativ erschwingliche Abonnements von ChatGPT (20 USD/200 USD pro Monat). Obwohl Sora immer noch keine weit verbreitete öffentliche API mit definierten Preisen hat, könnte dieser grundlegende Unterschied im Zugriffsmodell einen Wettbewerbsdruck auf die Google -Preise erzeugen. Wenn OpenAI oder andere Wettbewerber APIs mit niedrigeren Einheitenkosten anbieten oder hochwertige Modelle durch billigere Abonnements zugänglich werden, können professionelle Benutzer, die große Videovolumina generieren müssen, attraktivere Alternativen als die API von i -Siehe 2, um Google möglicherweise dazu zu zwingen, seine Preisstruktur zu überdenken, um die Wettbewerbsfähigkeit in diesem Schlüsselsegment zu erhalten.
Zeigen 2 Technische Funktionen: Ein Sprung im generativen Video
Ich sehe 2 hauptsächlich über zwei Modalitäten: die Generierung von Text zu Video (T2V), wobei eine Textbeschreibung in eine Video -Szene verwandelt wird, und die Generierung von Video zu Video (I2V), das ein statisches Bild basiert, das auf einer zusätzlichen Textaufforderung basiert, um Stil und Bewegung zu definieren. Dieses Modell ist das Ergebnis von Google-Forschungsjahren in der Videogenerierung, der Architekturen und des Lernens früherer Projekte wie GQN, DVD-Gan, Image-Video, Phenaki, Walt, Videopoet und Lumiere zusätzlich zu den Modellen der Transformatorarchitektur und der Gemini-Modelle.
In Bezug auf die technischen Ausgangsspezifikationen sehe 2 einen signifikanten Fortschritt, obwohl mit wichtigen Nuancen zwischen dem potenziellen und aktuellen Zugang:
- Auflösung: Das Basismodell ist in der Lage, Videos mit einer Auflösung von bis zu 4K.3 zu generieren. Dies ist eine Verbesserung gegenüber I Siehe 1, die 1080p erreichte. Viele der aktuellen Implementierungen, die der Öffentlichkeit zugänglich sind (API/Vertex AI, AI Studio, Gemini Advanced, VideoOFX), sind in einigen Kontexten auf 720p 14 oder 1080p begrenzt.
- Videodauer: Ich sehe, 2 hat die Möglichkeit, Clips zu erzeugen, die "die Minute überschreiten" oder bis zu zwei Minuten lang kontinuierlicher Dauer und sogar möglicherweise mehr erreichen. Dies verbessert die Fähigkeit, 1 (> 60s) zu sehen. Der aktuelle Zugriff über API, AI Studio und Gemini Advanced ist jedoch häufig auf 8 Sekunden Clips beschränkt.
- Fotogrammrate (Bildrate): Die Dokumentation der API und der Vertex AI gibt eine Rate von 24 Frames pro Sekunde (FPS) an. Im Vergleich werden 30-60 fps erwähnt.
- Erscheinungsverhältnis: Durch die API/den Scheitelpunkt AI werden Formate 16: 9 (Landschaft) und 9:16 (Porträt) unterstützt. Die Abreise in Gemini Advanced beträgt 16: 9.
- Ausgangsformat: Das MP4 -Format wird für die durch Gemini Advanced generierten Ausgänge verwendet.
Abgesehen von den grundlegenden Spezifikationen sehe 2 die wichtigsten qualitativen Verbesserungen ein:
Video des Schnitts einer Tomate, die von I See 2 erzeugt wurde
- Verbessertes Verständnis und Realismus: Das Modell zeigt ein fortgeschrittenes Verständnis der natürlichen Sprache und der visuellen Semantik, die den Ton, die Nuancen und Details langer Aufforderungen genau interpretiert. Verwenden Sie Transformatorarchitekturen (möglicherweise UL2 -Encoder), um den Text zu verarbeiten. Grundsätzlich hebt Google die Simulation der physischen Realwelt als entscheidende Verbesserung hervor. Beispiele wie Wasserphysik, Verbrennungspapier oder präziser Schnitt einer Tomate, ohne die Finger zu beeinflussen, veranschaulichen diese Kapazität und positionieren sie als Schlüsselunterschied gegen Konkurrenten wie Sora. Dieses physikalische Verständnis führt zu einer Darstellung der Hochgenauigkeitsbewegung mit flüssigen Bewegungen realistischer Zeichen und Objekte. Das Ergebnis sind Videos mit größerem Realismus und Treue, mit feinen Details und einer signifikanten Verringerung der visuellen Artefakte (wie zusätzlichen Fingern oder unerwarteten Objekten) im Vergleich zu früheren Modellen unter Verwendung von Techniken wie neuronalem Rendering von adaptiven Szenen und Gans. Darüber hinaus wurde die vorübergehende Konsistenz verbessert, wodurch die Stabilität von Zeichen und Objekten in den Rahmen durch latente Diffusionsmodelle aufrechterhalten wurde. Wie im Video zu sehen ist, werden natürlich unmögliche Bilder als wunderbarer Schnitt eines Stücks Tomaten erzeugt, das nach dem Schneiden in eine halbe Tomate verwandelt wird.
- Kinematografische Kontrolle und Stile: Ich sehe, dass 2 die "einzigartige Sprache der Kinematographie" interpretiert. Verstehen Sie Begriffe wie "Timelapse", "Air Take", "Drohne", "Travel", "Dolly", "Vordergrund", "Counterpicado", "Paneo auf der Rechten" und ermöglicht Ihnen sogar, das gewünschte Genre anzugeben. Es bietet umfangreiche Kammerkontrollen zum Einnehmen, Winkel und Bewegungen, einen hervorragenden wichtigen Vorteil. Es kann spezifische Linseneffekte (z. B. "18 -mm -Objektiv" für Weitwinkel simulieren) und Effekte wie "reduzierte Feldtiefe", einschließlich Linsenblitzen (Linsenflackern). Es unterstützt eine breite Palette von visuellen und filmischen Stilen.
- Bearbeitungsfunktionen (Vorschau/Zulassliste): Ich siehe 2 führt anspruchsvollere Bearbeitungsfunktionen ein, obwohl sie derzeit auf Liste der erlaubten Scheitelpunkte AI zugreifen müssen. Dazu gehören maskierte Ausgabe oder Inpacking, um unerwünschte Elemente (Logos, Ablenkungen) in definierten Videobereichen und das Ablinken zu beseitigen, um die Errahmung des Videos zu erweitern, das die neuen Bereiche generativ füllen und nützlich für die Änderung von Aussehensbeziehungen nützlich ist. Interpolation wird auch erwähnt, um weiche Übergänge zwischen festen Bildern und allgemeinen Bearbeitungsfunktionen zu erstellen, um Inhalte zu verfeinern oder zu überprüfen, ohne von vorne zu beginnen.
Googles starker Schwerpunkt auf das Verständnis von Physik und Bewegung durch I See 2 ist nicht zufällig. Es scheint ein zentraler architektonischer Fokus zu sein, der darauf abzielt, eine wichtige Schwäche zu korrigieren, die in früheren Modellen und Konkurrenten wie Sora beobachtet wurde (belegt durch das Beispiel des Schneidens der Tomate). Durch die Positionierung von Realismus als Hauptwertversprechen verweist Google direkt auf professionelle Fälle (Filmvorschau, Werbung, Schulung), in denen die Anti -natürliche Bewegung Eintauchen und Glaubwürdigkeit bricht. Dieser Fokus unterscheidet strategisch. Ich sehe 2 auf dem Markt und ziehe Benutzer an, die die Treue priorisieren, vielleicht reine Geschwindigkeit oder mehr abstrakte kreative Freiheit.
Es besteht jedoch eine bemerkenswerte Lücke zwischen dem angekündigten Potenzial und der Realität, die für viele Benutzer zugänglich ist. Der Unterschied zwischen der geförderten Kapazität der Erzeugung von 4K -Videos von mehreren Minuten und der tatsächlichen Erfahrung, 720p -Clips und 8 Sekunden zu erhalten, schafft eine Marketing -Herausforderung und kann Enttäuschung erzeugen. Es deutet darauf hin, dass, obwohl das zentrale Modell leistungsstark ist, das Klettern und Optimieren für einen breiten und erschwinglichen Zugang ein beträchtliches technisches Hindernis bleibt, wahrscheinlich aufgrund hoher Rechenkosten, Inferenzzeiten oder möglichen Problemen der Konsistenz und Sicherheit bei längeren Dauern. Diese Diskrepanz beeinflusst die Wahrnehmung des Benutzers: Sie sehen erstaunliche Demonstrationen, interagieren jedoch mit einem weniger fähigen Tool, was den Ruf des Produkts trotz seines zugrunde liegenden Potenzials beeinträchtigen könnte.
Schließlich ist die Betonung spezifischer filmischer Kontrollen (Linsen, Flugzeuge, Feldtiefe) eindeutig an professionelle Filmemacher und Schöpfer ausgerichtet. Dieser Ansatz ist mit dem höchsten Preismodell der API- und Geschäftskollaborationen übereinstimmt, was auf ein anfängliches Ziel des Einbrechens in professionelle Workflows hinweist. Google scheint einen Hauptmarkt bei der Erstellung professioneller Inhalte (Werbung, Filmvorschau, Marketing) zu identifizieren, auf dem diese Kontrollen einen erheblichen Wert bieten, der die Kosten, die über die einfache Unterhaltung für den Verbraucher hinausgeht, rechtfertigt.
Von i sehe 1 bis ich sehe 2
Um die Fortschritte von See 2 vollständig zu verstehen, ist es nützlich, zunächst die Grundlinie seines Vorgängers festzulegen. Ich sehe 1 bereits bemerkenswerte Funktionen: Videogenerierung bis zu 1080p, Dauer von mehr als 60 Sekunden, Verständnis der filmischen Begriffe, Videogenerierung bis Videos, Anwendung von Bearbeitungsbefehlen, Verbesserungen der Konsistenz durch latente Diffusion und die Implementierung von synthiden Wassermarken und Sicherheitsfiltern.
Ich sehe, 2 stellt eine signifikante Entwicklung auf dieser Grundlage mit wesentlichen Verbesserungen in mehreren Bereichen dar:
- Auflösung: Der offensichtlichste Sprung ist das Auflösungsziel von Siehe 2, das bis zu 4K erreicht und über das Maximum von 1080p von Siehe 1 übersteigt.
- Realismus und Treue: Ich sehe, 2 führt "signifikante Verbesserungen" im Detail, Realismus und Verringerung von Artefakten im Vergleich zu früheren und Wettbewerbermodellen ein. Es produziert weniger visuelle "Halluzinationen, obwohl Sie das Video dieser Nachricht einchecken können, ist es nicht immer.
- Bewegung und Physik: Es verfügt über "fortgeschrittene Bewegungsfähigkeiten" und eine bessere Simulation der Physik der realen Welt, die über den Fokus auf die Konsistenz von I See 1 hinausgeht.
- Chamber Control: Es bietet "ältere" und genauere Kamera -Steuerungsoptionen und erweitert das Verständnis der filmografischen Begriffe, die ich bereits besaß. Ich sehe 1.
- Videodauer: Das Dauerpotential erstreckt sich und überschreitet die Minute, die ich sehe 1.
- Ausgabe: Führen Sie anspruchsvollere Bearbeitungsfunktionen wie Inpainting und Outpainting (in der Vorschau) ein, die über die beschriebenen Ausgaben hinausgehen, um 1 zu sehen.
Die folgende Tabelle vergleicht direkt die wichtigsten Fähigkeiten von i siehe 1 und ich sehen 2:
Tabelle 2: Vergleich der Merkmale, die ich sehe 1 gegen ich sehe 2
Besonderheit |
Fähigkeit, die ich sehe 1 |
Fähigkeit, die ich sehe 2 |
---|---|---|
Maximale Auflösung |
1080p |
Bis zu 4k (Potenzial) |
Maximale Dauer (Potential) |
> 60 Sekunden |
Bis zu 2 Minuten oder mehr |
Physik / Bewegung |
Konsistenz konzentrieren |
Erweiterte physikalische Simulation, realistische Bewegung |
Realismus / Treue |
Hohe Qualität |
Signifikante, weniger Artefaktverbesserungen |
Kinematografische Kontrolle |
Begriffe verstehen |
Größere Präzision und Optionen (Objektive usw.) |
Bearbeitungsfunktionen |
Grundlegende Bearbeitungsbefehle |
Inpainting, Outpainting (Vorschau) |
Dieser Fortschritt von I See 1 to I See 2 zeigt eine iterative Verbesserungsstrategie von Google. Fortschritte in Lösung, Realismus, Physik und Kontrolle sind nicht zufällig; Sie konzentrieren sich auf grundlegende Aspekte der Qualität und der Videokontrolle, die für die professionelle Einführung von entscheidender Bedeutung sind. Dieses Muster deutet auf einen strukturierten Entwicklungsprozess hin, der ein langfristiges Engagement zur Verfeinerung der zugrunde liegenden Technologie zeigt.
Einschränkungen und Herausforderungen von siehe 2
Trotz seiner beeindruckenden Fähigkeiten sehe ich, dass 2 nicht von Einschränkungen und Herausforderungen befreit ist, sowohl der aktuellen Videogenerierungstechnologie von KI als auch spezifisch für ihre Implementierung und Bereitstellung.
- Komplexität und Einhaltung der Eingabeaufforderung: Obwohl sich das Verständnis der natürlichen Sprache deutlich verbessert hat, habe ich 2 immer noch Schwierigkeiten mit extrem komplexen oder detaillierten Eingabeaufforderungen, die nicht alle Anweisungen mit Präzision befolgen. Die Eingabeetechnik ist nach wie vor von entscheidender Bedeutung, um gute Ergebnisse zu erzielen. Während Benchmarks hohe Adhäsionswerte an der Eingabeaufforderung anzeigen, gibt es Fälle, in denen das Modell die Erwartungen nicht erfüllt.
- Artefakte und Konsistenz: Die Erzeugung visueller Artefakte wurde zwar reduziert, aber nicht vollständig beseitigt. Gelegentliche Deformitäten können in Themen, unleserlichen Text oder "Halluzinationen" wie zusätzliche Finger oder unerwartete Objekte auftreten. Die vorübergehende Konsistenz kann in sehr komplexen Szenen oder mit schnellen Bewegungen versagen, und physikalische Simulation kann in besonders komplexen Szenarien unterbrochen werden. Einige von Benutzern generierte Beispiele wurden als "unnatürlich" oder "störend" beschrieben.
- Generierungsgeschwindigkeit: Die Zeit, die für die Erzeugung eines Videos benötigt wird, kann beträchtlich sein. Es gibt Vergleiche, die etwa 10 Minuten pro Clip zitieren, die sich mit den ungefähr 5 Minuten im Gegensatz zu Sora im Gegensatz zueinander unterziehen. Einige Integrationen wie YouTube -Shorts scheinen jedoch viel schneller zu funktionieren. Die Latenz der API wird offiziell als "typischerweise in wenigen Minuten" beschrieben, aber es kann länger dauern ".
- Ausgabewerkzeuge: Das Fehlen von Bearbeitungswerkzeugen, die in einige der Zugriffsoberflächen (API, möglicherweise die anfängliche Version von Gemini Advanced) integriert sind, zwingt Benutzer dazu, auf externe Software zurückzugreifen, um Änderungen vorzunehmen. Die fortschrittlichsten Bearbeitungsfunktionen in der Vertex -KI erfordern Zugriff auf Liste der zulässigen Benutzer. Sora hingegen enthält integrierte Bearbeitungswerkzeuge.
- Verfügbare Steuerelemente: Einige der ersten Benutzer von VIS stellten fest, dass die von ihnen getestete Version von VI 2 im Vergleich zu Sora keine Kontrollen für die Auflösung oder Dauer des Videos hatte. Die API/Vertex -AI bietet jedoch Parameter zur Steuerung des Dauer, des Erscheinungsverhältnisses, der negativen Eingabeaufforderungen und der Erzeugungssamen.
- Zugriff und Kosten: Wie aus detaillierter fragmentierter Zugriff sind Wartelisten, geografische Beschränkungen und hohe Kosten der API erhebliche Hindernisse für die Adoption darstellen. Im Moment sind die Gebühren auf freien Ebenen extrem niedrig, obwohl ihre Landung noch eine Weile warten muss, um sie zu bewerten.
- Inhaltsbeschränkungen und Sicherheitsfilter: Von Google implementierte Sicherheitsfilter sind streng und können die Erzeugung von Inhalten unerwartet blockieren, selbst für scheinbar harmlose Aufforderungen. Es gibt spezifische Einschränkungen für die Erzeugung von Personen, insbesondere geringfügig (kontrolliert durch Parameter wie degitle_adult oder nicht in der API). Benutzer haben Probleme gemeldet, Videos selbst aus Bildern zu generieren, die Personen enthalten, oder in Szenen ohne sie. Diese übermäßige Zensur kann das Werkzeug für bestimmte Anwendungsfälle unbrauchbar machen.
- Kapazitätsmängel: Zugrunde fehlt derzeit fehlt die fundierte Erzeugung. Die Schwierigkeit bei der Erzeugung von realistischen Händen ist in allen KI -Modellen immer noch ein häufiges Problem.
Diese Einschränkungen zeigen ein inhärentes Engagement zwischen Kapazität und Benutzerfreundlichkeit. Obwohl ich 2 vermutet, dass 2 -End -Funktionen (4K -Potential, realistische Physik), Geschwindigkeitsbeschränkungen, zugängliche Kontrollen (in einigen Versionen), das Fehlen integrierter Bearbeitung und strenge Inhaltsfilter die praktische Benutzerfreundlichkeit erheblich beeinträchtigen. Im Vergleich zu Wettbewerbern, die schneller, integrierter oder weniger restriktiver sein könnten (wie Sora oder Runway), könnten 2 Benutzer eine höhere potenzielle Qualität auf Kosten einer mühsameren oder begrenzten Benutzererfahrung erzielen. Dies kann die Akzeptanz beeinflussen, insbesondere für iterative oder sensible Arbeitsabläufe.
Darüber hinaus deuten Berichte über übermäßig aggressive Inhaltsfilter, die harmlose Aufforderungen blockieren, mögliche Überreaktionen bei der Priorisierung der Sicherheit und der Risikominderung der Marke durch Google vor. Diese Vorsicht könnte aus früheren Kontroversen mit anderen KI -Modellen (wie Gemini -Bildern) abgeleitet werden. Während die Sicherheit wesentlich ist, können zu strenge Filter das Tool für viele gemeinsame Anwendungsfälle verwenden (z. B. fördern Familienfotos), wodurch eine wichtige Einschränkung erzeugt wird, die durch die Risikoaversion bestimmt wird.
Schließlich verstärken die Kombination von Kapazitätslücken (720p/8s gegenüber 4K/Minuten), Usability -Problemen (Geschwindigkeit, variable Steuerelemente) und Zugriffsbarrieren das Problem der "Demonstration vs. Realität". Die durchschnittliche Benutzererfahrung kann weit von den von Google vorgestellten polierten Demonstrationen entfernt sein, was die Glaubwürdigkeit schädigen kann, wenn die Erwartungen nicht sorgfältig verwaltet werden. Diese erhebliche Kluft zwischen dem Versprechen und der Realität, die der Benutzer erlebt hat, kann trotz der technologischen Leistung zu Enttäuschung und einer negativen Wahrnehmung führen, die vermutet, dass ich 2 sehe.
Ich sehe 2 gegen Sora und andere
Die Position von Siehe 2 auf dem Markt ist größtenteils durch den Vergleich mit seinem Hauptkonkurrenten Sora de Openai sowie Runway definiert.
Direkte Vergleiche (ich sehe 2 gegen Sora):
- Qualität/Realismus: Zahlreiche anfängliche Quellen und Benutzer zitieren in Bezug auf Realismus, physische Simulation und visuelle Details als überlegen. Sora hingegen zeigt manchmal Schwierigkeiten mit feinen Details (wie Händen) und Physik. Einige Analysen legen nahe, dass Sora "künstlerischer" oder kreativ flexibel sein könnte.
- Lösung: Ich sehe, 2 hat ein Potenzial von bis zu 4K, während Sora auf 1080p begrenzt ist.
- Dauer: Das Potenzial von SEE 2 (mehr als 1-2 Minuten) überschreitet die für Sora zitierte Dauer (20 oder 60 Sekunden). Der aktuelle Zugriff auf i Siehe 2 ist jedoch normalerweise kürzer (8 Sekunden).
- Geschwindigkeit: Ich sehe 2 (ca. 10 min) ist im Allgemeinen langsamer als Sora (ca. 5 min). Es ist wichtig, die Existenz von "Sora Turbo" zu bemerken, einer möglicherweise schnelleren und wirtschaftlicheren Version, aber möglicherweise von geringerer Qualität als Soras ursprüngliche Demos.
- Kontrolle: Ich sehe, 2 wird durch seine filmischen Kontrollen gelobt, während Sora durch seine Flexibilität und Funktionen wie Storyboarding auffällt. MKBHD stellte jedoch fest, dass seine Ansicht 2 -Testversion weniger Steuerelemente als Sora hatte.
- Ausgabe: Ich sehe 2 fehlt integrierte Bearbeitung (außer in der Vertex -AI mit Zulassliste); Sora bietet gebaute Werkzeuge (Remix, Schleife, Mischung).
- Zugang/Preis: Der Zugriff auf i See 2 ist fragmentiert und die Kosten der API sind hoch. Sora ist über billigere Abonnements zugänglich. Derzeit ist Sora für die breite Öffentlichkeit zugänglicher.
Benchmarking und andere Konkurrenten:
Die Ergebnisse von Benchmark Movengenbench, bei denen menschliche Bewerter von mehr als 1000 Eingabeaufforderungen generierten Videos beschrieben haben, zeigten, dass ich Sora Turbo, Kling und Filgen sowohl in der allgemeinen Präferenz als auch in der Einhaltung der Eingabeaufforderung überschritten habe (bewertet bei 720p mit variablen Dauern). Es ist jedoch entscheidend, die Einschränkungen dieser Benchmarks zu erkennen, die ausgewählte Ergebnisse ("Kirschverpickte") oder basierend auf bestimmten Datensätzen verwenden können.
Das wettbewerbsfähige Panorama umfasst auch Runway (mit Gen-3 Alpha/Gen-4), Kling, AWS Nova Reel, Hailuo, Minimax und potenziellem Filgen. Einige Benutzer präsentieren sich sogar für Runway oder Hailuo über die aktuelle Version von Sora, auf die sie Zugriff haben.
Die folgende Tabelle bietet einen vergleichenden Schnappschuss von Ver 2 vor den Hauptkonkurrenten:
Tabelle 3: Vergleichende Momentaufnahme von Videogeneratoren durch KI
Besonderheit |
Google, ich sehe 2 |
Openai Sora |
Landebahn (Gen-3/4) |
---|---|---|---|
Hauptstärke |
Realismus, Physik, kinematische Kontrolle [Multiple] |
Geschwindigkeit, kreative Flexibilität, Ausgabe |
Feinsteuerung, spezifische Modi (implizit) |
Max. |
4K (Potential) |
1080p |
Variable (720p-1080p+ gemäß Plan/Version) |
Max. |
2 min+ (Potential) |
20s / 60s |
~ 15s (Gen-2), länger in Gen-3/4 (variabel) |
Geschwindigkeit |
Langsamer (~ 10 min) |
Schneller (~ 5 min) |
Schnell (Gen-4 Echtzeit?) |
Ausgabewerkzeuge |
Begrenzt / extern (API) |
Integriert (Remix, Schleife usw.) |
Integriert (implizit) |
Zugriffsmodell |
Fragmentiert (API, Subs, Labors) [Multiple] |
CHATGPT -Abonnement |
Abonnement / Credits |
Preismodell |
API: $/Sec; Sub: $ 20/Monat |
Sub: $ 20/$ 200 Monat |
Jährliche Pläne (144 bis $ 1500) |
Dieser Vergleich deutet auf eine mögliche Marktsegmentierung hin, die auf den Stärken jedes Tools basiert. Ich sehe, 2 scheint den professionellen Einsatz von High -Fidelity -Nutzungen zu erreichen, die die filmische Qualität und die körperliche Präzision schätzen [viele Snippets]. Sora könnte dank ihrer Geschwindigkeit, Flexibilität und integrierten Bearbeitung ein breiteres Publikum von Inhaltsschöpfer für soziale Netzwerke und kreatives Experimentieren anziehen. Die Landebahn konnte mit seinem iterativen Ansatz und möglicherweise spezifischen Eigenschaften seine Nische zwischen bildenden Künstlern und VFX -Fachleuten finden. Der Markt scheint nicht monolithisch zu sein; Verschiedene Werkzeuge dienen wahrscheinlich nebeneinander und bedienen unterschiedliche Segmente entsprechend ihren zentralen Fähigkeiten.
Bei der Bewertung dieser Vergleiche ist es entscheidend, die Warnung "freigegebener Version" anzuwenden. Oft ist die öffentliche Version eines Modells kontrastiert (wie "Sora Turbo", die nach Ansicht einiger Benutzer niedriger ist als die anfänglichen Demos) mit sorgfältig ausgewählten Demos oder begrenzten Zugriffsversionen eines anderen (ich sehe 2). Dies macht es schwierig, endgültige Urteile festzulegen. Das "beste" Modell kann weitgehend davon abhängen, welche spezifische Version bewertet wird und unter welchen Bedingungen Überlegenheit zu einem mobilen Ziel.
Schließlich gibt es eine wiederkehrende Hypothese über den Vorteil von Google Data. Mehrere Quellen spekulieren, dass der direkte und massive Zugriff von Google auf YouTube -Daten einen erheblichen Vorteil bei der Schulung von VI 2 bietet, um realistische Bewegungen zu erreichen und verschiedene Szenarien zu verstehen, im Vergleich zu Wettbewerbern, die möglicherweise auf Datenkratzen zurückgreifen müssen. Obwohl es nicht offiziell bestätigt wird, könnte dieser Zugriff auf eine Reihe von Videodaten, die so weit und potenziell kennzeichnendem Kennzeichnung sind, eine langfristige entscheidende Wettbewerbsgrube sein, was möglicherweise den wahrgenommenen Vorteil von SEE 2 im Realismus erklärt und schwierig ist, sich von anderen rechtlich und effektiv zu replizieren.
Sicherheit und Ethik in See 2
Google hat sein Engagement für die Prinzipien der Verantwortlichen für die Entwicklung und den Einsatz von I See 2 betont. Das Unternehmen behauptet, umfangreiche Tests der "roten Teaming" und der Bewertungen zu haben, um die Erzeugung von Inhalten zu verhindern, die gegen seine Richtlinien verstoßen. Zwei technische Hauptmechanismen unterstützen diesen Ansatz:
- Synthid Water Marke: Diese Technologie ist eine wichtige Sicherheitsfunktion, die in IVO 2 und anderen Google Generative Models implementiert ist. Es handelt sich um eine unsichtbare digitale Wassermarke, die während der Generation direkt in die Pixel der Video -Photogramme eingebettet ist. Es ist so konzipiert, dass es anhaltend ist, auch wenn das Video bearbeitet wird (Schnitte, Filter, Komprimierung) und die wahrnehmbare visuelle Qualität nicht beeinflusst. Ziel ist es, die von AI erzeugte Identifizierung des von AI erzeugten Inhalts durch spezielle Erkennungswerkzeuge zuzulassen, wodurch Fehlinformationen und fehlerhafte Zuschreibungen bekämpft werden können.
- Sicherheitsfilter: Ich sehe 2, die Filter enthalten, die die Erstellung schädlicher Inhalte verhindern. Die API enthält spezifische Parameter, um die Erzeugung von Personen zu kontrollieren, z. Wie oben erwähnt, gibt es jedoch Berichte von Benutzern, die darauf hinweisen, dass diese Filter übermäßig restriktiv sein können.
Abgesehen von diesen technischen Maßnahmen ist der Einsatz von I See 2 Teil eines breiteren ethischen Panorama mit mehreren wichtigen Bedenken:
- DeepFakes und Fehlinformationen: Die Fähigkeit, realistische Videos zu erzeugen, beinhaltet das inhärente Risiko, überzeugende Deepfakes zu erstellen, um falsche Informationen zu verbreiten oder böswillige Ergänzungen durchzuführen. Synthid ist die Haupttechnungsverteidigung von Google gegen dieses Risiko.
- Geistiges Eigentum und Urheberrecht: Das Eigentum des von KI erzeugten Inhalts bleibt eine legal graue Gegend. Darüber hinaus treten Bedenken hinsichtlich der Daten auf, die zum Training dieser Modelle verwendet werden, z. B. die mögliche Verwendung von YouTube -Videos ohne ausdrückliche Zustimmung zu diesem Zweck.
- Vorurteile: Wie bei jedem Modell des geschultes mit großen Datensätzen besteht ein Risiko, dass ich in seinen Ergebnissen 2 so verewige soziale Vorurteile verewigt oder verstärkt, obwohl Google behauptet, Maßnahmen zur Minderung zu ergreifen.
- Arbeitsverschiebung: Die wachsende Kapazität dieser Tools sorgt für ihre Auswirkungen auf die Kreativbranche mit potenzieller Verschiebung von Filmrollen, Animation, Marketing und Design. In einer Studie wurden Schätzungen für 2026 schätzungsweise auf Arbeitsplätze in den USA geschätzt.
Die herausragende Bereitstellung von Synthid durch Google in seinen generativen Modellen stellt einen proaktiven technischen Ansatz dar, um die Risiken von Fehlinformationen anzugehen. Das Abieren der Wassermarke während der Erzeugung ist im Gegensatz zur Nach-Hoc-Erkennung eine integrierte vorbeugende Maßnahme. Dies deutet darauf hin, dass Google Wasserzeichen als grundlegend für einen verantwortungsvollen Einsatz betrachtet. Der Erfolg dieser Strategie hängt jedoch von der tatsächlichen Robustheit von Wassermarken und der generalisierten Einführung zuverlässiger Erkennungsinstrumente ab. Es ist eine technische Lösung für ein komplexes sozio-technisches Problem.
Die Spannung zwischen der Implementierung robuster Sicherheitsfilter und der Aufrechterhaltung der Nützlichkeit des Benutzers unterstreicht ein grundlegendes Dilemma für KI -Entwickler: Sicherheit im Nutzen. Übermäßig strenge Filter können ein Tool verwenden, während LAX -Filter die Risiken erhöhen. Das richtige Gleichgewicht zu finden ist eine kontinuierliche Herausforderung mit erheblichen Auswirkungen auf die Einführung des Benutzers und die soziale Auswirkungen. Die aktuelle Kalibrierung von Google scheint sich auf die Vorsicht zu neigen, was sich auf die Wettbewerbsfähigkeit auswirken könnte, wenn Benutzer das Tool zu restriktiv für ihre Bedürfnisse finden.
Schließlich stellen Merkmale wie synthid- und konfigurierbare Sicherheitsparameter (obwohl unvollkommen) auf den Versuch von Google dar, ethische Überlegungen in das eigene Design des Produkts einzubetten. Dies geht über politische Erklärungen hinaus, um die technische Implementierung zu erreichen. Während die Ausführung möglicherweise Fehler (zu strenge Filter) aufweist, spiegelt der Ansatz zur Integration der Sicherheit in die Architektur des Tools eine spezifische Position zur verantwortungsvollen Entwicklung der KI wider, in der die ethische Nutzung durch Technologie selbst erzwungen wird.
Auswirkungen und zukünftige Flugbahn von Ver 2
Die Einführung und Entwicklung von VI 2 hat erhebliche Auswirkungen, die über ihre technischen Spezifikationen hinausgehen, die möglicherweise mehrere Branchen beeinflussen und kreative Prozesse neu definieren.
Auswirkungen auf die Kreativbranche:
Ich sehe, 2 hat das Potenzial, Workflows in mehreren Sektoren zu revolutionieren:
- Kino: Es kann die Vorschau und das Testen von Konzepten beschleunigen, Hintergrundgüter erzeugen und sogar vollständige Kurzfilme erzeugen. Die Zusammenarbeit mit Filmemachern wie Donald Glover und seiner Studie Gilga unterstreicht diesen Ansatz.
- Marketing und Werbung: Es ermöglicht eine schnelle Prototität von Anzeigen, die Generierung von benutzerdefinierten Werbeinhalten im Maßstab und die Erstellung von Produktdemonstrationen. Unternehmen wie Mondelez, WPP, Agoda, Alphawave und Trakto untersuchen es bereits. Die drastische Reduzierung der Produktionszeiten (von Wochen bis Stunden nach Angaben der Kraft Heinz Company) und die geringere Abhängigkeit von Aktienmaterial.
- Videospiele: Es kann verwendet werden, um Kinematik oder realistisches Werbematerial zu generieren.
- Ausbildung und Ausbildung: Erleichtert die Schaffung von veranschaulichenden Videos, um komplexe Konzepte zu erklären oder Verfahren zu simulieren (z. B. medizinische Ausbildung).
- Soziale Netzwerke: Die Integration mit YouTube -Shorts und die Fähigkeit, kurze und attraktive Clips zu generieren, machen es zu einem leistungsstarken Tool für Inhaltsersteller auf Plattformen wie Tiktok.
Demokratisierung vs. Störung:
Ich sehe 2, die eine Dualität verkörpert: Einerseits demokratisiert es die Produktion hochwertiger Videos und macht es für kleine Unternehmen und einzelne Schöpfer zugänglich, denen zuvor die erforderlichen Ressourcen oder technischen Fähigkeiten fehlten. Andererseits droht die traditionelle Rollen in der Kreativbranche zu stören und Bedenken hinsichtlich der Verbreitung von Inhalten von geringer Qualität oder "KI -Slop", die automatisch erzeugt werden.
Zukünftige Entwicklung:
Die Benutzer hoffen, dass ich sehe, dass 2 am Ende viele Verbesserungen in nachfolgenden Versionen wie:
- Kapazitätserweiterung: Kontinuierliche Qualitätsverbesserung, breiterer Einsatz von 4K -Kapazitäten und länger und möglicherweise die Hinzufügung der Schallgenerierung.
- Integration von Ökosystemen: Eine stärkere Integration mit anderen Google -Produkten wie Vertex AI, YouTube und möglicherweise der Gemini -Suche und dem Ökosystem. Die Kombination mit Gemini wird in Betracht gezogen, um das Verständnis der physischen Welt zu verbessern.
- Schnelle Entwicklung: Die Entwicklungsrate bleibt beschleunigt, fördert durch intensive Wettbewerbe auf diesem Gebiet mit den erwarteten Entwicklungen in den kommenden Jahren.
Die Analyse legt nahe, dass Tools wie ich sehe, dass 2 kreative Arbeit nicht beseitigen, sondern den Engpass bewegen. Die Hauptschwierigkeit liegt nicht mehr in der technischen Ausführung (Dreharbeiten, Ausgabe, visuelle Effekte), sondern fordert das Engineering und die Ausgabe der generierten Inhalte auf. Der Erfolg hängt immer mehr von der kreativen Vision und der Fähigkeit ab, effektiv mit KI zu kommunizieren. Die kreative Richtung und die Fähigkeit, präzise und evokative Aufforderungen zu formulieren, werden zu kritischen Fähigkeiten.
Anstelle eines vollständigen Ersatzes ist die wahrscheinlichste kurzfristige Auswirkung der Auftreten von beruflichen Rollen "durch KI erhöht". Fachleute in Kino, Marketing, Design usw. werden Tools wie I -Sehen 2 verwenden, um ihre Produktivität zu verbessern, die Iteration zu beschleunigen und neue kreative Möglichkeiten zu erkunden. Dies erfordert eine Anpassung und die Entwicklung neuer Fähigkeiten, die sich auf die effektive Verwendung dieser Tools konzentrieren und vorhandene Rollen verändern, anstatt sie in vielen Fällen vollständig zu beseitigen.
Schließlich ist die Integration von Ver 2 in das Google -Ökosystem (Gemini, Vertex AI, YouTube, Labs) ein klares strategisches Stück. Es wird versucht, Synergien zu erstellen (verwenden Sie Gemini, um Eingabeaufforderungen, Bild für i2v -Eingänge, YouTube -Daten für das Training) zu erstellen und die Benutzerdauer innerhalb ihrer Plattformen zu fördern. Dieser ganzheitliche Ansatz könnte einen Wettbewerbsvorteil gegenüber unabhängigen Tools bieten, was das Angebot von Google attraktiver macht als die einfache Summe seiner Teile für Benutzer, die bereits an ihr Ökosystem angepasst sind.
Videos, die nach Ansicht 2 erzeugt werden
Hier lassen wir Ihnen mehrere Videos, die von I See 2 generiert wurden. Wie Sie sehen werden, sehe ich 2 eher unmögliche Elemente, unten geben wir den verwendeten Promt an.
Video eines Sittiches, indem Sie mit dem Schnabel ein Glasfenster schlagen, das von I See 2 erzeugt wird
Video eines Passagierflugzeugs, das zwischen Wolken mit einer Person am Rumpf fliegt, die von siehe 2 erzeugt wird
Disney -Filmtyp eines Kaninchen