2025年的AI漫剧,就是昨天的短剧:遍地黄金,也遍地是坑

AI提示词1个月前更新 jinlian
15 0

现在这些AI技术,发展得太快了。谷歌的DeepMind和OpenAI,这两家公司一直在比着赛。它们发布的新东西,一个比一个厉害。

2025年的AI漫剧,就是昨天的短剧:遍地黄金,也遍地是坑

(一)技术沿革

先说谷歌的Genie系列。这个系列的目标很大,想直接用AI做一个能玩的世界。最开始,他们搞了个叫GameNGen的东西。它的工作方式很简单。你给它看前几帧游戏画面,告诉它你按了手柄的哪个按钮。它就能猜出下一帧画面应该是什么样子。这只是第一步。

后来,他们做出了Genie 2。这个就好玩多了。你给它一张照片,比如一张森林的照片。它就能根据这张照片,生成一个可以走来走去的三维森林环境。

真正的重点是2025年8月发布的Genie 3。这个东西完全是另一个水平了。它生成的互动世界,分辨率是720p,每秒24帧。这个标准已经跟普通视频差不多了。而且,你可以在这个世界里连续玩好几分钟,里面的东西不会突然变样。最特别的一点是,你可以跟它说话来改变世界。比如,你在它生成的世界里走着,直接说一句“下雨”。天上就真的会开始下雨。你再说一句“来个角色”。世界里可能就会多出来一个人。所以,它已经不是一个简单的视频工具了。它更像一个“世界引擎”。

再来看谷歌的另一个系列,Veo。如果说Genie是用来创造世界的,那Veo就是用来把这个世界拍成专业视频的。2024年5月,第一代Veo公布了。到了年底,Veo 2就能生成4K清晰度的视频了。

2025年5月的Veo 3,增加了一个重要的功能。它能直接生成带有人物对话、环境声音和各种音效的视频。这意味着,画面和声音是一起被创造出来的。它们不是分开做好再拼到一起的。这样一来,音画就同步了。

几个月后,Veo 3.1又更新了。这次增加了很多实用的编辑功能。你可以用它给视频里的东西换位置,或者干脆删掉。它还支持用几张图片就生成一段连贯的视频。比如,你给它第一张图和最后一张图,它能帮你把中间的过渡视频做出来。它还能把一段视频延长到一分钟左右。这些功能,都是专业影视制作里经常要用到的。Veo的目标很明确,就是要做一个完整的视频创作工具。

最后说说OpenAI的Sora 2。Sora一发布就让很多人感到惊讶。Sora 2则是在原有基础上做了很多改进。它特别强调“真实感”。比如,它能很准确地模拟水是怎么流的,布料是怎么飘动的。这些细节让它生成的视频看起来和真实拍摄的差不多。

而且,Sora 2也把声音当作一个重点。它生成的视频里,人物对话、背景的环境音和各种效果音都结合得很好。视频里的人说话,嘴型和声音能对上。时间点也卡得很准。它的标准就是做出来的视频片段,可以直接在电视上播出。

(二)Genie 3与Veo 3.1和Sora 2的技术原理与核心特征

这些工具看起来很神奇。我们现在就用简单的话,说说它们大概是怎么工作的。

Genie 3的核心,是一个“世界模型”。它能理解动作和文字。它的工作流程是这样的。第一步,你给它一个指令,可以是一段文字,比如“一个晴朗的沙滩”。也可以是一张图片。它会把这个指令变成它能理解的初始数据,生成第一批画面。

第二步,它开始一帧一帧地预测未来。它会看着前面的画面,再结合你用手柄或者键盘输入的操作,来计算出下一帧应该是什么样子。这个过程不断重复,世界就动起来了。

Genie 3有一个很重要的特点,就是它有记忆。比如,你在一个房间里,把桌上的杯子推倒了。然后你离开这个房间,去别处逛了一圈。等你再回来的时候,那个杯子还是倒在桌上的。它能记住世界里发生的变化。总结一下,Genie 3的特点就是:可以实时玩,能长时间保持稳定,还能在玩的过程中用指令动态修改世界。

Veo 3和3.1的核心技术叫“潜在扩散模型”。你不需要弄懂这个词。只需要知道它的关键在于“统一生成”。在它制作视频的流水线上,画面和声音是同一个模型、在同一个时间点被创造出来的。它们不是两条独立的线。

打个比方。传统做视频,像是先捏好一个泥人(画面),再找个人给它配音(音频)。而Veo的方式,是这个泥人一被捏出来,就自带了声音。所以它的声音和画面配合得特别好。Veo 3.1更进一步,它让你能对这个“自带声音的泥人”进行精细修改。比如,你可以单独调亮它脸上的光,或者把它手里的东西换掉。这些修改,都不会影响音画的同步。

Sora 2用的是“扩散”和“变换器”两种技术结合的架构。这种架构的好处是,它很擅长理解视频内容的前后逻辑关系。所以Sora 2生成的视频,故事线通常比较连贯,不会前言不搭后语。

Sora 2这次最大的进步也是在声音上。它生成的声音不是简单的背景音乐。它是一个完整的声场,里面包含了人物的对话、周围环境的声音、还有各种动作发出的音效。

它还有一个很厉害的功能。你可以上传一段你自己拍摄的视频和录音。模型会学习你的长相和声音。然后,你就可以让它生成一段全新的视频,主角就是你。比如,你可以写一个指令:“让我在月球上发表演讲”。Sora 2生成的视频里,就会出现一个长得像你、声音也像你的人,在月球上演讲。当然,为了防止别人乱用,它也加了一些安全措施,比如给视频加上看不见的水印。

(三)Genie 3与Veo 3.1/Sora2与我国主流同类型模型比较

国外的模型在飞速前进,国内的模型也没闲着。字节跳动的即梦3.5 PRO和快手的可灵2.6,就是两个很有代表性的例子。它们没有完全模仿国外的路子,而是找到了一些自己的特点。

先说字节的即梦3.5 PRO。它的强项在于理解复杂的故事和怎么把故事讲好。跟Veo 3.1那种追求单一片段质量的工具比,即梦更像一个“短片导演”。

它的工作方式是这样的。你可以给它一个简单的分镜头脚本。比如:

  1. 一个男人走进一家咖啡店。
  2. 他看到了一个朋友,很惊讶。
  3. 他们坐下来开始聊天。

即梦3.5 PRO可以根据这个脚本,一键生成三个连贯的视频片段。在这些片段里,男人、朋友、咖啡店的场景都能保持一致。它一次能生成大约15秒的视频,通过拼接,可以做出接近2分钟的短片,而且人物和场景都不会有太大变化。在声音方面,它有一个“智能声场匹配”技术。就是说,它会分析画面内容,然后自动配上合适的背景音乐和音效。比如,画面是咖啡店,它就会配上咖啡机工作的声音和人们轻声交谈的声音。这些功能,都非常符合国内短视频创作者的使用习惯。

再来看快手的可灵2.6。它的目标非常明确,就是要对标Sora 2。它主要在两个方面下功夫:一个是模拟真实的物理运动,另一个是追求超高的画质。

可灵2.6可以生成1080p、每秒60帧的视频。这个规格已经很高了,画面非常清晰流畅。它在模拟流体、布料这些复杂运动时,效果很好。比如,你让它生成一段“风吹动窗帘”的视频。它能把窗帘那种轻柔飘动的感觉做得很真实。

这个版本最大的进步,是对视频开头和结尾的控制更准了。你还可以用一个叫“运动笔刷”的工具,在画面上画出一条线,指定某个东西按照这条线来运动。比如,让一只蝴蝶按照你画的轨迹飞。它还打通了和国内语音模型的接口,所以生成的视频里,如果有人物说话,嘴型同步率很高,看起来不假。

未来影响及对我国广播电视网络视听行业的启示

这些技术听起来离我们很远。但它们很快就会影响到很多行业。特别是做电视和网络视频的。这不仅仅是工具的更新,更是一场生产方式的改变。

首先,做视频的流程完全变了。我们来看一个具体的例子,拍一个汽车广告。

传统的流程是这样的:

  1. 前期准备: 开会定创意,写脚本,画分镜图。这个过程可能要一周。
  2. 勘景和搭建: 找合适的山路、城市夜景。如果找不到,就要花大钱搭一个假的场景。这可能又要一两周。
  3. 拍摄: 组织一个大团队,包括导演、摄影、灯光、演员。等一个好天气,封路拍摄。一天下来成本很高,而且有很多不确定性。
  4. 后期制作: 剪辑素材,调色,做特效,配音配乐。这个过程也很长,可能要一个月。

整个流程下来,两个月算快的,成本几十上百万很正常。

现在用AI来做,流程可能是这样的:

  1. 创意和生成: 广告创意师直接在Genie 3里构建一个虚拟的拍摄场景。比如“一条蜿蜒在雪山顶的公路,傍晚时分,有晚霞”。然后用Veo 3.1或者Sora 2来生成视频。提示词可以是“一辆红色的跑车在这条公路上飞驰,镜头从低角度跟拍,背景音乐是激昂的交响乐,有引擎的轰鸣声和轮胎摩擦地面的声音”。
  2. 修改和调整: 第一版视频出来了。客户觉得车颜色不够亮,晚霞不够红。创意师直接修改提示词,“把跑车颜色调成更鲜艳的法拉利红”,“让晚霞更灿烂,带一点紫色”。几分钟后,新的一版视频就出来了。
  3. 最终输出: 反复修改几次,客户满意了,直接输出成片。

整个过程可能只需要几天,参与的人也大大减少,成本可能只有原来的十分之一。这就是生产方式的改变。它把原来重资产、长周期的影视制作,变得轻快了很多。

其次,节目的形态也会变。我们现在是“看”电视。以后,我们可能是“进入”电视里的世界去体验。

比如,现在有一部很火的探案剧。观众只能跟着主角的视角破案。如果用Genie 3的技术来做,这部剧可以变成一个互动的探案世界。你不再是观众,你就是一名侦探。你可以亲自走进案发现场,用手柄控制角色,去翻抽屉,查看证物。你甚至可以和里面的NPC(非玩家角色)对话,问他们问题,他们的回答会影响剧情的走向。每个人玩出来的结局都可能不一样。这样一来,节目就从一个单向输出的作品,变成了一个可以反复探索的“平行时空”。

最后,商业模式也要跟着变。电视台和视频网站现在主要靠广告和会员费挣钱。以后,他们可能会靠运营“虚拟资产”来挣钱。

上面说的那个互动探案剧,它里面的那个虚拟案发现场,本身就是一个有价值的资产。这个资产可以被授权给游戏公司,开发成一个独立的探案游戏。也可以和线下的密室逃脱店合作,做一个主题房间。还可以把里面的破案逻辑,做成给学生用的逻辑思维训练课件。同一个核心内容,可以在不同场景里反复使用,挣好几份钱。

面对这些变化,我们国家的广电行业不能干等着。

第一件事,就是要密切关注这些新技术。要有一个专门的团队去评估,看看这些工具到底好不好用,适合用在哪。比如,新闻节目要求绝对真实,可能暂时用不上。但是综艺节目的片头、电视剧里的一些特效场景,就可以先试试。要找到适合我们自己的用法。

第二件事,要尽快建立我们自己的工具和素材库。不能总指着用国外的模型。我们需要有自己的、安全可控的智能工具。电视台和视频平台可以联合起来,建立一个共享的、高质量的视听素材库。大家一起制定AI生成内容的标准。这样才能把整个流程打通,不被别人限制。

第三件事,要守好安全的底线。技术越厉害,被滥用的风险就越大。用AI生成假新闻,或者伪造他人影像,这些都是很危险的事情。所以,必须建立一套完整的管理体系。比如,所有AI生成的内容,都必须有一个明确的标识,让观众一眼就能看出来。视频里用到的素材,都要能追溯到来源。版权问题也要有明确的规定。只有在安全、合规的前提下,这些新技术才能真正为行业带来好处。

© 版权声明

相关文章

暂无评论

暂无评论...