通过人工智能(AI)的媒体发电领域正在以垂直的速度发展,视频生成已成为最活跃和竞争的边界之一。在这种情况下,Google介绍了我看到的2,其模型的演变I看到了1及其在这个新兴领域竞争的旗舰建议。由Google DeepMind开发的,我认为2被定位为旨在制作高质量和现实视频的最新模型,目的是提供“前所未有的创造性控制”。

VIE 2的到来发生在激烈竞争的时刻,诸如Openai Sora,Runway,Kling和其他人等关键演员以惊人的速度促进创新。 Google指出,我看到2个重新定义了AI的视频中的质量和控制,并有可能将创意工作流程转变为各种行业。

本文在对Google I See 2的详细分析中为您带来了您的参与。我们通过不同的Google平台,其技术规范以及相对于其前身的主要改进,我看​​到了1。我们还解决了该模型的当前局限性,并与I See 1和相关竞争者进行了比较分析,并通过对Google进行了最初的专家和对Google进行评估和对Google进行评估和执行Google的意见。 

访问我看到2:平台,价格和可用性

Google的启动策略以查看2的特征是逐渐零散的部署。它始于私人预测创作者和精选电影制片人,并通过各种Google产品和平台进行了逐步扩展。关键日期是2025年4月15日为Gemini高级用户宣布其可用性。

当前,有多种访问我看到2的路线,每个路线都有其自身的特征和局限性:

  • GEMINI API / VERTEX AI:这是寻求集成I在自己的应用程序中的开发人员和业务客户的主要途径。它被认为可以生产。访问需要API键,对于某些高级功能,例如特定的会议室版或控件,可能有必要在允许的用户列表中。 WPP,Agoda,Mondelez和Poe等公司已经在使用或测试我通过Vertex AI看到2。
  • Google AI Studio:为开发人员提供了一个实验环境,以测试I See 2的功能。最初的访问通常是免费的,但受到非常严格的使用配额。
  • VideoFX(Google Labs):这是一种针对创建者的实验工具,可通过Google Labs访问。它需要在等待列表中注册。最初,尽管Google计划扩展访问权限,但在美国的18岁以上用户的早期访问仅限于18岁以上的用户。
  • Gemini Advanced:我看到2是作为高级Google One AI计划的订户的功能集成的。它允许以720p分辨率生成8秒的视频,并且未明确定义的每月使用限制(表明我们达到限制时将通知我们)。它在支持双子座应用程序的国家和语言中可用。
  • 搅拌动画(Google Labs):此实验功能,也在Google Labs中,使用I See 2将静态图像转换为8秒的动画视频剪辑。它适用于60多个国家 /地区的Google One AI Premium的订户。
  • YouTube短裤(梦屏幕):通过梦想屏幕功能实现了VAS 2在YouTube短裤上的集成。这将使创作者可以通过AI生成独特的视频资金,甚至可以从文本提示中创建独立的视频剪辑。最初的部署将在美国,加拿大,澳大利亚和新西兰进行。

至于不同的价格,它们之间在这些平台之间有很大差异:

  • API/顶点AI:成本基于生成的视频时间。来源表示价格在0.35美元至$ 0.50之间。这相当于每分钟$ 21- $ 30或$ 1260- $ 1800每小时生成的视频。有Google启动模式提供了免费的积分(300美元),并且在Vertex AI中可能存在无用的初始段。
  • 订阅:通过Gemini Advanced和Whisk Animate的访问包括在Google One AI Premium($ 20/月,在西班牙21.99欧元)中的订阅中。相比之下,Sora de Openai是作为Chatgpt Plus($ 20/月)和Pro(200美元/月)的订阅的一部分提供的。
  • 免费/实验:诸如Google AI Studio和VideoFX之类的平台(带有等待列表)提供免费访问,但在可用的配额和功能方面有很大的限制。

下表总结了通往我看到2的通道道路:

表1:Google访问摘要我看到2

平台

访问方法

典型的用户

关键规格(当前访问)

成本模型

可用性状态

双子座API/顶点AI

API键,允许列表(某些功能)。

开发人员,公司

4K/分钟潜力,API:720p/8s

每秒($ 0.35- $ 0.50)

GA,预览(编辑)

Google AI Studio

登录

开发人员

720p/8s

免费(低配额)

实验

videofx(实验室)

登录 +等待

创造者

720p/8s

免费(低配额)

列出等待(reg。)

双子座高级

Google一个AI预先参考。

消费者

720p/8s(16:9)

订阅(每月$ 20)

GA(全球)

搅拌动画(实验室)

Google一个AI预先参考。

消费者,创造者

视频图像(8s)

订阅(每月$ 20)

GA(60多个国家)

YouTube短裤

集成在应用程序中

内容创建者

资金 /夹子(8s?)

免费(集成)

部署(Reg。)

 

访问点和价格模型的多样性揭示了Google交错的访问策略。通过API保留最高的容量(可能为4K,更长的视频,高级控制)和最高的价格,在API中,感知到的价值和付款意愿更大。同时,提供了更多有限的版本(720p,8秒),但通过免费订阅或预测,消费者和创建者可以在经济上更经济地使用。这种细分的方法使Google能够管理部署的复杂性,与视频生成相关的高处理成本,并最大程度地提高潜在收入,并适应不同市场细分市场的需求。

但是,这个价格策略的位置我在比赛面前看到了2个有趣的位置。每秒API的高成本(0.35美元至0.50美元)与Sora纳入Chatgpt相对负担得起的订阅(每月20美元/$ 200)的形成鲜明对比。尽管Sora仍然没有明确价格的广泛可用的公共API,但访问模型的这种根本差异可能会对Google价格产生竞争压力。如果OpenAI或其他竞争对手提供具有较低单位成本的API,或者通过更便宜的订阅可以访问高质量的模型,那么需要产生大型视频量的专业用户比I See 2的API更具吸引力的替代方案,这可能会迫使Google重新考虑其价格结构以在该关键细分市场中保持竞争力。

查看2技术功能:生成视频中的跳跃

我看到2主要通过两种方式运行:文本到视频(T2V),其中文本描述被转换为视频场景,以及视频的产生(i2v),该视频(i2v)鼓励基于其他文本提示,以定义样式和移动。该模型是Google在视频生成中研究年度的结果,它利用了架构并了解了GQN,DVD-GAN,Image-Video,Phanaki,Walt,Videopoet和Lumiere,除了变压器体系结构和双子座模型外。

至于技术输出规格,我看到2呈现出很大的进步,尽管其潜力和当前访问之间的细微差别很大:

  • 分辨率:基本模型能够生成以高达4K.3的分辨率生成视频,这是相对于I See 1的改进,该视频达到了1080p。但是,在某些情况下,公众可以访问的许多当前实现(API/Vertex AI,AI Studio,Gemini Advanced,VideoFX)限于720p 14或1080p。
  • 视频持续时间:我看到2具有生成“超过分钟”或最多连续两分钟的剪辑的能力,甚至可能更可能。这可以提高看到1(> 60s)的能力。但是,当前通过API,AI Studio和Gemini Advanced的访问通常仅限于8秒夹。
  • Fotogram速率(帧速率): API和顶点AI的文档指定每秒24帧的速率(FPS)。在某些比较中,提到了30-60 fps。
  • 外观比率:通过API/Vertex AI,格式16:9(景观)和9:16(肖像)。 Gemini Advanced的离开是16:9。
  • 输出格式: MP4格式将用于通过Gemini Advanced生成的输出。

除了基本规格之外,我看到2介绍了关键的定性改进:

我看到2的番茄剪切的视频

 

  • 改善的理解和现实主义:该模型表明了对自然语言和视觉语义的高级理解,精确解释语气,细微差别和长提示的细节。使用变压器体系结构(可能是UL2编码器)来处理文本。从根本上讲,Google重点介绍了对现实世界的模拟,这是一种至关重要的改进。诸如水物理学,燃烧纸或番茄的精确切割之类的例子而不影响手指说明了这种能力,将其定位为与Sora等竞争对手的关键区别。这种物理理解转化为高精度运动的表示,并具有逼真的特征和对象的流体运动。结果是与以前的模型相比,与以前的模型相比,视频具有更大的真实感和忠诚度,并有明显的细节(例如额外的手指或意外物体)的大幅度降低,例如使用自适应场景和gan的神经元渲染。此外,临时一致性已得到改善,通过潜在扩散模型在整个框架中保持角色和对象的稳定性。当然,从视频中可以看出,不可能产生的不可能的图像通常是一块番茄的奇妙切割,该番茄被切割后变成了一半番茄。
  • 摄影控制和样式:我看到2解释了“摄影的独特语言”。理解诸如“暂停”,“ take”,“无人机”,“旅行”,“ dolly”,“前景”,“ Counterpicado”,“右边的帕尼诺”之类的术语,甚至允许您指定所需的类型。它提供了广泛的室内控制,角度和动作,一个出色的关键优势。它可以模拟特定的透镜效应(例如,“ 18mm镜头”以进行广角)和诸如“减小场深度”之类的效果,包括镜头闪光灯(镜头耀斑)。它支持广泛的视觉和摄影样式。
  • 编辑功能(预览/允许列表):我看到2介绍了更复杂的编辑功能,尽管它们目前需要访问允许的Vertex AI列表。其中包括蒙版版或介绍,以消除定义的视频区域中不需要的元素(徽标,分心),并在上面覆盖,以扩展视频的框架,从而填充了新的区域,可用于改变外观关系。还提到了插值是在固定图像和一般编辑功能之间创建软过渡,以完善或查看内容而无需从头开始。

Google强烈强调我看到2对物理和运动的理解并非偶然。这似乎是一种核心建筑焦点,旨在纠正以前模型和竞争者(例如Sora)观察到的重要弱点(以切割番茄的示例证明了这一点)。通过将现实主义定位为主要价值主张,Google直接指出了反对自然运动破坏沉浸和信誉的专业案例(电影预览,广告,培训)。这种重点从战略上区分了我在市场上看到的2,从而吸引了那些优先考虑忠诚度的用户,也许是纯粹的速度或更抽象的创意自由。

但是,宣布的潜力与许多用户可访问的现实之间存在显着差距。生成几分钟的4K视频的促进能力与获得720p剪辑的真正体验之间的差异引起了营销挑战,并可能引起失望。它表明,尽管中央模型具有强大的功能,但为广泛且负担得起的访问进行攀爬和优化仍然是一个很大的技术障碍,这可能是由于较高的计算成本,推理时间或可能在更长持续时间内的一致性和安全性问题所致。这种差异会影响用户的看法:他们看到了惊人的示威活动,但与功能较低的工具相互作用,尽管其潜在的潜力可能会损害产品的声誉。

最后,对特定的摄影控制(镜片,平面类型,田野深度)的重视显然是针对专业电影制片人和创作者的。这种方法与API和业务合作的最高定价模型保持一致,这表明最初是闯入专业工作流程的目标。 Google似乎可以确定创建专业内容(广告,电影预览,营销)的主要市场,在该市场中,这些控件具有重要的价值,可以证明成本合理,而不仅仅是消费者简单的娱乐。

从我看到1到我看到2

为了充分了解See 2的进步,首先建立其前身的基线很有用。我看到1个已经提供了显着功能:视频生成高达1080p,持续时间超过60秒,了解摄影术语,视频生成视频,编辑命令的应用,潜在扩散的一致性以及SynthID水品牌的实施和安全过滤器的实施。

我看到2代表了此基础上的重大发展,在多个领域的主要改进:

  • 分辨率:最明显的跳跃是See 2的分辨率目标,该目标最高为4K,超过了1080p的最大见面。
  • 现实主义和忠诚:我看到2个引入了与以前和竞争者模型相比,详细介绍了“重大改进”,现实主义和伪像的减少。它会产生较少的视觉“幻觉,尽管您可以在此新闻的视频中检查一下,但并非总是如此。
  • 运动和物理:它具有“先进的运动能力”和对现实世界物理学的更好模拟,超越了对I See 1的一致性的重点。
  • 室内控制:它提供了“较旧的”和更精确的相机控制选项,扩展了我已经拥有的摄影术语的理解,我看到了1个。
  • 视频持续时间:持续时间的潜力延长了,超过了我看到的分钟。
  • 版本:介绍更复杂的编辑功能,例如indpain and ofpainting(在预览中),这些功能超出了所描述的版本命令。

下表直接比较了i看到1的关键能力,我看到2:

表2:功能的比较,我看到1 vs。我看到2 

特征

能力我看到1

能力我看到2

最大分辨率

1080p

最多4K(潜力)

最大持续时间(电势)

> 60秒

最多2分钟或更长时间

物理 /运动

专注于一致性

先进的物理模拟,现实运动

现实主义 /忠诚

高质量

显着的,较少的人工制品改进

摄影控制

对术语的理解

更高的精度和选择(镜片等)

编辑功能

基本编辑命令

覆盖,支出(预览)

 

我看到1到我看到2的进展说明了Google的迭代改进策略。解决方案,现实主义,物理和控制的进步不是随机的。他们专注于质量和视频控制的基本方面,这些方面对于专业采用至关重要。这种模式表明了一个结构化的发展过程,表明对完善基础技术的长期承诺。

参见2的局限性和挑战

尽管它具有令人印象深刻的功能,但我认为2并不能免于AI的限制和挑战,这是AI当前的视频生成技术所固有的,并且是其实施和部署的特定于限制和挑战。

  • 提示的复杂性和依从性:尽管对自然语言的理解显着提高,但我认为2仍然很难遇到困难,而极其复杂或详细的提示,未能按照精确的所有说明遵循所有指示。提示工程对于获得良好的结果至关重要。尽管基准测试表明提示的粘附得分很高,但在某些情况下,该模型不符合期望。
  • 伪影和一致性:视觉伪影的产生虽然减少了,但尚未完全消除。偶尔的畸形可能出现在主题,难以辨认的文本或“幻觉”中,例如额外的手指或意外的物体。在非常复杂的场景或快速运动中,临时一致性可能会失败,并且在特别复杂的情况下,物理模拟可能会破坏。用户产生的一些示例被描述为“不自然”或“令人不安的”。
  • 生成速度:生成视频所需的时间可能是可观的。有比较引用每个夹子约10分钟,这与归因于Sora的大约5分钟形成对比。但是,某些集成(例如YouTube短裤)的运作速度似乎更快。 API的延迟被正式描述为“通常在几分钟内,但可能需要更长的时间”。
  • 版本工具:缺乏集成在某些访问接口(API,可能是Gemini Advanced的初始版本)中的编辑工具强迫用户诉诸外部软件以进行修改。顶点AI中最高级的编辑功能需要允许用户列表访问。另一方面,Sora包括集成的编辑工具。
  • 可用控件: VIS的一些最早用户,注意到他们测试的VI 2版本缺乏与Sora相比的视频分辨率或持续时间的控件。但是,API/顶点AI确实提供了参数以控制持续时间,外观比,负提示和产生种子。
  • 访问和成本:由于我们已经详细,分散的访问,等待清单,地理限制和高昂的API成本代表了采用的重大障碍。目前,自由级别的费用非常低,尽管最近的登陆仍然需要等待一段时间才能对其进行评估。
  • 内容限制和安全过滤器: Google实施的安全过滤器很严格,即使显然是无害的提示,也可能会意外阻止内容的产生。对于人的产生,尤其是次要的限制(受允许_Adult或API中禁止的参数控制)。用户报告的问题甚至是从包含人的图像或没有他们的场景中生成视频的问题。这种过多的审查制度可以使该工具在某些用例中无法使用。
  • 容量缺陷:目前可访问的版本缺乏声音。在所有AI模型中,产生逼真的手的困难仍然是一个普遍的问题。

这些限制表明容量和可用性之间的固有承诺。尽管我看到2个假定高端功能(4K潜力,现实的物理),速度限制,可访问的控件(在某些版本中),但缺乏集成编辑和严格的内容过滤器会显着影响实际的可用性。与可能更快,集成或更少限制性的竞争对手(例如Sora或跑道)相比,看到2个用户可以以更加麻烦或有限的用户体验来获得更高的潜在质量。这可能会影响采用,特别是对于迭代或敏感的工作流程。

此外,关于阻止无害提示的过度积极性滤镜过滤器的报告表明,Google对品牌的安全性和降低风险降低风险的优先次序可能过度反应。这种谨慎可以从其他AI模型(例如Gemini Images)的过去争议中得出。尽管安全性是必不可少的,但过滤器太严格可以在许多常见用例中使用该工具(例如,鼓励家庭照片),从而产生了由风险规避驱动的重要限制。

最后,容量差距(720p/8s vs 4K/分钟),可用性问题(速度,可变控件)和访问障碍的组合扩大了“演示与现实”的问题。普通的用户体验可能与Google提出的抛光示范相去甚远,如果期望未仔细管理,这可能会损害可信度。尽管我认为2,但用户经历的诺言与现实之间的重大差距可能导致失望和负面的看法。

我看到2 vs sora和其他

See 2在市场上的位置在很大程度上是由其主要竞争对手Sora de Openai和Runway的比较来定义的。

直接比较(我看到2对Sora):

  • 质量/现实主义:在现实主义,物理模拟和视觉细节方面,众多初始资源和用户引用了2。另一方面,索拉有时会出现困难,并有细节(例如手)和物理学。一些分析表明,索拉可能更“艺术”或创造性地灵活。
  • 分辨率:我看到2的潜力最高为4K,而Sora的可能性限于1080p。
  • 持续时间:参见2(超过1-2分钟)的潜力超过了Sora引用的持续时间(20或60秒)。但是,当前访问i See 2通常较短(8秒)。
  • 速度:我看到2(约10分钟)通常比Sora慢(约5分钟)。重要的是要注意“ Sora Turbo”的存在,这是一个可能更快,更经济的版本,但质量可能低于Sora的原始演示。
  • 控制:我看到2受到摄影控制的赞扬,而索拉(Sora)的灵活性和功能(例如故事板)脱颖而出。但是,MKBHD发现他的View 2测试版的控制力少于Sora。
  • 版本:我看到2个缺少集成编辑(在Vertex ai中,允许列表除外); Sora提供构建的工具(混音,循环,混合)。
  • 访问/价格:我看到2的访问是分散的,API的成本很高;通过较便宜的订阅可以访问Sora。目前,索拉(Sora)更容易被公众使用。

基准测试和其他竞争对手:

人类评估者描述了从1000多个提示产生的视频的基准Moviegenbench的结果表明,我看到2个超过了Sora Turbo,Kling和Moviegen的一般偏好,并遵守提示(在720p的720p时,可变持续时间进行评估)。但是,至关重要的是要识别这些基准的局限性,这些基准可以使用所选的结果(“挑选”)或基于特定的数据集。

竞争激烈的全景还包括跑道(带有Gen-3 Alpha/gen-4),Kling,AWS Nova Reel,Hailuo,Minimax和可能是Moviegen目标。一些用户甚至对跑道或Hailuo表示偏爱他们可以访问的当前版本的Sora。

下表在其主要竞争者面前提供了VER 2的比较快照:

表3:AI的视频生成器的比较快照

特征

Google我看到2

Openai Sora

跑道(Gen-3/4)

主要优势

现实主义,物理学,运动学控制[多重]

速度,创意灵活性,版本

精细控制,特定模式(隐式)

最大限度。

4K(势)

1080p

变量(根据计划/版本720p-1080p+)

最大限度。

2分钟+(电势)

20s / 60s

〜15S(gen-2),gen-3/4(变量)中更长

速度

较慢(〜10分钟)

更快(〜5分钟)

快速(Gen-4实时?)

版本工具

有限 /外部(API)

集成(混音,循环等)

集成(隐式)

访问模型

碎片(API,subs,Labs)[多个]

chatgpt订阅

订阅 /学分

价格模型

API:$/sec;子:每月$ 20

子:$ 20/$ 200个月

年度计划($ 144- $ 1500)

 

这种比较表明,基于每个工具的优势,可能的市场细分。我看到2似乎是对高保真度的专业使用,重视摄影质量和物理精确度[许多片段]。由于速度,灵活性和集成的编辑,Sora可以吸引更广泛的内容创建者进行社交网络和创意实验的受众。跑道以他的迭代方法以及可能的特定特征,可以在视觉艺术家和VFX专业人士之间找到他的利基市场。市场似乎并不是整体的。不同的工具可能会共存,根据其中心能力提供不同的细分市场。

评估这些比较时,要应用“发布版本”警告至关重要。通常,模型的公共版本与精心选择的演示版本或另一个用户的有限访问版本对比(例如,根据某些用户低于初始演示的“ Sora Turbo”(我看到2)。这使得很难建立确定的判断。 “最佳”模型可以在很大程度上取决于正在评估哪个特定版本以及在什么条件下,使优越性成为移动目标。

最后,关于Google数据的优势有一个反复出现的假设。与可能需要诉诸于数据刮擦的竞争对手相比,有几个消息来源推测Google的直接和大量访问YouTube数据为您提供了VI 2的培训,以实现现实动作并了解各种情况。虽然没有正式确认,但这种对一系列视频数据的访问可能是一个长期的关键竞争坑,这可能是一个长期的至关重要的竞争坑,这可能解释了See 2在现实主义中的感知优势,并且很难由其他人合法和有效地复制。

安全与道德在见2中

Google强调了其对I See 2的开发和部署原则的承诺。该公司声称对“红色团队”进行了广泛的测试,并进行了评估,以防止生成违反其政策的内容。两种主要的技术机制支持这种方法:

  • Synthid Water品牌:该技术是IVO 2和其他Google生成模型中实现的关键安全功能。这是一个无形的数字水品牌,在这一代人的视频摄影类像素中直接嵌入。即使对视频进行了编辑(剪切,过滤器,压缩)的编辑,并且不影响可感知的视觉质量,它也被设计为持久。其目的是允许通过专门检测工具来识别AI生成的内容,从而有助于打击错误信息和错误的归因。
  • 安全过滤器:我看到2包含旨在防止有害内容的过滤器。 API包括控制人产生的特定参数,例如允许_Adult(仅允许成人,默认值)或禁止(不允许人)。但是,如上所述,有报道称这些过滤器可能过于限制。

除了这些技术措施之外,我的部署2是更广泛的道德全景的一部分,有几个关键问题:

  • 深层效果和错误信息:生成现实视频的能力需要创造有说服力的深层蛋糕来传播虚假信息或执行恶意补充的固有风险。 Synthid是Google针对这种风险的主要技术防御。
  • 知识产权和版权: AI产生的内容的财产仍然是合法的灰色区域。此外,对用于训练这些模型的数据产生了担忧,例如未经此目的明确同意就可能使用YouTube视频。
  • 偏见:与任何具有大型数据集的训练的型号一样,我的风险在其结果中有2个持续或扩大现有的社会偏见,尽管Google声称采取措施减轻它。
  • 劳动力流离失所:这些工具的不断增长的能力对它们对创意产业的影响产生了关注,并可能导致电影角色,动画,市场营销和设计的潜在流离失所。一项研究引用的估计,2026年对美国的就业机会产生重大影响。

Google在其生成模型中的SynthID的显着部署代表了一种积极的技术方法,可以解决错误信息的风险。与事后检测不同,在生成过程中加入水标记是一种综合的预防措施。这表明Google认为水印是负责任部署的基础。但是,这种策略的成功取决于水品牌的真正鲁棒性以及可靠的检测工具的普遍采用。这是解决复杂的社会技术问题的技术解决方案。

通过投诉证明,实施强大的安全过滤器和维持用户的有用性之间的张力强调了AI开发人员的根本困境:安全性与实用程序。过度严格的过滤器可以使用工具,而LAX过滤器会增加风险。找到适当的平衡是一个持续的挑战,对用户和社会影响的采用带来了重大影响。 Google当前的校准似乎倾向于谨慎,如果用户发现该工具过于限制其需求,这可能会影响其竞争力。

最后,诸如合成和可配置的安全参数(尽管不完美)之类的特征代表了Google在产品自己的设计中嵌入道德考虑因素的尝试。这超出了政策声明以实现技术实施。虽然执行可能会出现故障(过滤过滤器太严格),但将安全性整合到工具架构中的方法反映了对AI负责任开发的特定立场,并寻求通过技术本身实施道德使用。

Ver 2的影响和未来轨迹

VI 2的发布和演变具有重要的含义,超出了其技术规格,可能影响多个行业并重新定义创作过程。

对创意产业的影响:

我看到2有可能彻底改变几个领域的工作流程:

  • 电影院:它可以加快概念的预览和测试,产生背景资产,甚至产生完整的短片。与唐纳德·格洛弗(Donald Glover)和他的研究吉尔加(Gilga)等电影制片人的合作强调了这种方法。
  • 营销和广告:它允许广告快速原型,大规模定制广告内容以及产品演示的创建。 Mondelez,WPP,Agoda,Alphawave和Trakto等公司已经在探索它。根据Kraft Heinz Company的说法,生产时间的急剧减少(从几周到几个小时)和对库存录像的依赖程度较低。
  • 电子游戏:它可用于生成电影或现实的促销材料。
  • 教育和培训:促进创建说明性视频以解释复杂概念或模拟程序(例如医学培训)。
  • 社交网络:与YouTube短裤的集成以及生成简短和吸引人的剪辑的能力,使其成为Tiktok等平台上内容创建者的强大工具。

民主化与破坏:

我看到2体现了二元性:一方面,它使高质量视频的生产民主化,这对于以前缺乏必要的资源或技术技能的小型公司和个人创作者而言可以使用。另一方面,威胁要破坏创意行业中的传统角色,并引起人们对自动生成的低质量内容或“ AI Slop”的扩散的担忧。

未来发展:

用户希望我看到2个最终包括以下版本的许多改进,例如:

  • 容量扩展:持续的质量提高,更广泛的4K能力部署,并且可能会增加声音。
  • 生态系统集成:与其他Google产品(例如Vertex AI,YouTube)以及潜在的Gemini搜索和生态系统的更大集成。考虑与双子座的结合来提高对物理世界的理解。
  • 快速发展:发展速度将保持加速,这是由该领域激烈的竞争促进的,未来几年的进展。

分析表明,我看到的2个工具不会消除创意工作,而是移动瓶颈。主要困难不再存在于技术执行(拍摄,版本,视觉效果)中,而是在构想中提示工程和生成的内容。成功将越来越多地取决于创造性愿景和与AI有效沟通的能力。创造性的方向以及制定精确和令人回味的提示的能力成为关键技能。

最可能的短期影响不是完整的替代者,而是专业角色“增加了人工智能”的出现。电影,营销,设计等领域的专业人员将使用我看到的2个工具来提高其生产力,加速迭代并探索新的创意可能性。这将需要适应和发展新技能,重点是有效使用这些工具,改变现有角色,而不是在许多情况下完全消除它们。

最后,在Google生态系统(Gemini,Vertex AI,YouTube,Labs)中的VER 2集成是一个明确的战略性游戏。它试图创建协同作用(使用Gemini生成提示,I2V输入的图像,YouTube数据进行培训)并在其平台内促进用户持久性。这种整体方法可以比独立工具提供竞争优势,这使得Google的报价比已经适应其生态系统的用户的简单零件总和更具吸引力。

视图2生成的视频

在这里,我们给您留下了我看到2的几个视频。正如您所看到的,我看到2个倾向于产生不可能的元素,在底部,我们指出了所用的提示。

长尾小鹦鹉的视频通过撞到一杯窗户上的喙,我看到2

 

一架客运飞机在云之间飞行的视频,在机身上有一个人,见2

 

迪斯尼电影类型的兔子读书,由视图2产生

 

公告

宇宙

计算

经济

加密货币

一般的

自然