2025年的AI漫剧，就是昨天的短剧：遍地黄金，也遍地是坑

现在这些AI技术，发展得太快了。谷歌的DeepMind和OpenAI，这两家公司一直在比着赛。它们发布的新东西，一个比一个厉害。

（一）技术沿革

先说谷歌的Genie系列。这个系列的目标很大，想直接用AI做一个能玩的世界。最开始，他们搞了个叫GameNGen的东西。它的工作方式很简单。你给它看前几帧游戏画面，告诉它你按了手柄的哪个按钮。它就能猜出下一帧画面应该是什么样子。这只是第一步。

后来，他们做出了Genie 2。这个就好玩多了。你给它一张照片，比如一张森林的照片。它就能根据这张照片，生成一个可以走来走去的三维森林环境。

真正的重点是2025年8月发布的Genie 3。这个东西完全是另一个水平了。它生成的互动世界，分辨率是720p，每秒24帧。这个标准已经跟普通视频差不多了。而且，你可以在这个世界里连续玩好几分钟，里面的东西不会突然变样。最特别的一点是，你可以跟它说话来改变世界。比如，你在它生成的世界里走着，直接说一句“下雨”。天上就真的会开始下雨。你再说一句“来个角色”。世界里可能就会多出来一个人。所以，它已经不是一个简单的视频工具了。它更像一个“世界引擎”。

再来看谷歌的另一个系列，Veo。如果说Genie是用来创造世界的，那Veo就是用来把这个世界拍成专业视频的。2024年5月，第一代Veo公布了。到了年底，Veo 2就能生成4K清晰度的视频了。

2025年5月的Veo 3，增加了一个重要的功能。它能直接生成带有人物对话、环境声音和各种音效的视频。这意味着，画面和声音是一起被创造出来的。它们不是分开做好再拼到一起的。这样一来，音画就同步了。

几个月后，Veo 3.1又更新了。这次增加了很多实用的编辑功能。你可以用它给视频里的东西换位置，或者干脆删掉。它还支持用几张图片就生成一段连贯的视频。比如，你给它第一张图和最后一张图，它能帮你把中间的过渡视频做出来。它还能把一段视频延长到一分钟左右。这些功能，都是专业影视制作里经常要用到的。Veo的目标很明确，就是要做一个完整的视频创作工具。

最后说说OpenAI的Sora 2。Sora一发布就让很多人感到惊讶。Sora 2则是在原有基础上做了很多改进。它特别强调“真实感”。比如，它能很准确地模拟水是怎么流的，布料是怎么飘动的。这些细节让它生成的视频看起来和真实拍摄的差不多。

而且，Sora 2也把声音当作一个重点。它生成的视频里，人物对话、背景的环境音和各种效果音都结合得很好。视频里的人说话，嘴型和声音能对上。时间点也卡得很准。它的标准就是做出来的视频片段，可以直接在电视上播出。

（二）Genie 3与Veo 3.1和Sora 2的技术原理与核心特征

这些工具看起来很神奇。我们现在就用简单的话，说说它们大概是怎么工作的。

Genie 3的核心，是一个“世界模型”。它能理解动作和文字。它的工作流程是这样的。第一步，你给它一个指令，可以是一段文字，比如“一个晴朗的沙滩”。也可以是一张图片。它会把这个指令变成它能理解的初始数据，生成第一批画面。

第二步，它开始一帧一帧地预测未来。它会看着前面的画面，再结合你用手柄或者键盘输入的操作，来计算出下一帧应该是什么样子。这个过程不断重复，世界就动起来了。

Genie 3有一个很重要的特点，就是它有记忆。比如，你在一个房间里，把桌上的杯子推倒了。然后你离开这个房间，去别处逛了一圈。等你再回来的时候，那个杯子还是倒在桌上的。它能记住世界里发生的变化。总结一下，Genie 3的特点就是：可以实时玩，能长时间保持稳定，还能在玩的过程中用指令动态修改世界。

Veo 3和3.1的核心技术叫“潜在扩散模型”。你不需要弄懂这个词。只需要知道它的关键在于“统一生成”。在它制作视频的流水线上，画面和声音是同一个模型、在同一个时间点被创造出来的。它们不是两条独立的线。

打个比方。传统做视频，像是先捏好一个泥人（画面），再找个人给它配音（音频）。而Veo的方式，是这个泥人一被捏出来，就自带了声音。所以它的声音和画面配合得特别好。Veo 3.1更进一步，它让你能对这个“自带声音的泥人”进行精细修改。比如，你可以单独调亮它脸上的光，或者把它手里的东西换掉。这些修改，都不会影响音画的同步。

Sora 2用的是“扩散”和“变换器”两种技术结合的架构。这种架构的好处是，它很擅长理解视频内容的前后逻辑关系。所以Sora 2生成的视频，故事线通常比较连贯，不会前言不搭后语。

Sora 2这次最大的进步也是在声音上。它生成的声音不是简单的背景音乐。它是一个完整的声场，里面包含了人物的对话、周围环境的声音、还有各种动作发出的音效。

它还有一个很厉害的功能。你可以上传一段你自己拍摄的视频和录音。模型会学习你的长相和声音。然后，你就可以让它生成一段全新的视频，主角就是你。比如，你可以写一个指令：“让我在月球上发表演讲”。Sora 2生成的视频里，就会出现一个长得像你、声音也像你的人，在月球上演讲。当然，为了防止别人乱用，它也加了一些安全措施，比如给视频加上看不见的水印。

（三）Genie 3与Veo 3.1/Sora2与我国主流同类型模型比较

国外的模型在飞速前进，国内的模型也没闲着。字节跳动的即梦3.5 PRO和快手的可灵2.6，就是两个很有代表性的例子。它们没有完全模仿国外的路子，而是找到了一些自己的特点。

先说字节的即梦3.5 PRO。它的强项在于理解复杂的故事和怎么把故事讲好。跟Veo 3.1那种追求单一片段质量的工具比，即梦更像一个“短片导演”。

它的工作方式是这样的。你可以给它一个简单的分镜头脚本。比如：

一个男人走进一家咖啡店。
他看到了一个朋友，很惊讶。
他们坐下来开始聊天。

即梦3.5 PRO可以根据这个脚本，一键生成三个连贯的视频片段。在这些片段里，男人、朋友、咖啡店的场景都能保持一致。它一次能生成大约15秒的视频，通过拼接，可以做出接近2分钟的短片，而且人物和场景都不会有太大变化。在声音方面，它有一个“智能声场匹配”技术。就是说，它会分析画面内容，然后自动配上合适的背景音乐和音效。比如，画面是咖啡店，它就会配上咖啡机工作的声音和人们轻声交谈的声音。这些功能，都非常符合国内短视频创作者的使用习惯。

再来看快手的可灵2.6。它的目标非常明确，就是要对标Sora 2。它主要在两个方面下功夫：一个是模拟真实的物理运动，另一个是追求超高的画质。

可灵2.6可以生成1080p、每秒60帧的视频。这个规格已经很高了，画面非常清晰流畅。它在模拟流体、布料这些复杂运动时，效果很好。比如，你让它生成一段“风吹动窗帘”的视频。它能把窗帘那种轻柔飘动的感觉做得很真实。

这个版本最大的进步，是对视频开头和结尾的控制更准了。你还可以用一个叫“运动笔刷”的工具，在画面上画出一条线，指定某个东西按照这条线来运动。比如，让一只蝴蝶按照你画的轨迹飞。它还打通了和国内语音模型的接口，所以生成的视频里，如果有人物说话，嘴型同步率很高，看起来不假。

未来影响及对我国广播电视网络视听行业的启示

这些技术听起来离我们很远。但它们很快就会影响到很多行业。特别是做电视和网络视频的。这不仅仅是工具的更新，更是一场生产方式的改变。

首先，做视频的流程完全变了。我们来看一个具体的例子，拍一个汽车广告。

传统的流程是这样的：

前期准备： 开会定创意，写脚本，画分镜图。这个过程可能要一周。
勘景和搭建： 找合适的山路、城市夜景。如果找不到，就要花大钱搭一个假的场景。这可能又要一两周。
拍摄： 组织一个大团队，包括导演、摄影、灯光、演员。等一个好天气，封路拍摄。一天下来成本很高，而且有很多不确定性。
后期制作： 剪辑素材，调色，做特效，配音配乐。这个过程也很长，可能要一个月。

整个流程下来，两个月算快的，成本几十上百万很正常。

现在用AI来做，流程可能是这样的：

创意和生成： 广告创意师直接在Genie 3里构建一个虚拟的拍摄场景。比如“一条蜿蜒在雪山顶的公路，傍晚时分，有晚霞”。然后用Veo 3.1或者Sora 2来生成视频。提示词可以是“一辆红色的跑车在这条公路上飞驰，镜头从低角度跟拍，背景音乐是激昂的交响乐，有引擎的轰鸣声和轮胎摩擦地面的声音”。
修改和调整： 第一版视频出来了。客户觉得车颜色不够亮，晚霞不够红。创意师直接修改提示词，“把跑车颜色调成更鲜艳的法拉利红”，“让晚霞更灿烂，带一点紫色”。几分钟后，新的一版视频就出来了。
最终输出： 反复修改几次，客户满意了，直接输出成片。

整个过程可能只需要几天，参与的人也大大减少，成本可能只有原来的十分之一。这就是生产方式的改变。它把原来重资产、长周期的影视制作，变得轻快了很多。

其次，节目的形态也会变。我们现在是“看”电视。以后，我们可能是“进入”电视里的世界去体验。

比如，现在有一部很火的探案剧。观众只能跟着主角的视角破案。如果用Genie 3的技术来做，这部剧可以变成一个互动的探案世界。你不再是观众，你就是一名侦探。你可以亲自走进案发现场，用手柄控制角色，去翻抽屉，查看证物。你甚至可以和里面的NPC（非玩家角色）对话，问他们问题，他们的回答会影响剧情的走向。每个人玩出来的结局都可能不一样。这样一来，节目就从一个单向输出的作品，变成了一个可以反复探索的“平行时空”。

最后，商业模式也要跟着变。电视台和视频网站现在主要靠广告和会员费挣钱。以后，他们可能会靠运营“虚拟资产”来挣钱。

上面说的那个互动探案剧，它里面的那个虚拟案发现场，本身就是一个有价值的资产。这个资产可以被授权给游戏公司，开发成一个独立的探案游戏。也可以和线下的密室逃脱店合作，做一个主题房间。还可以把里面的破案逻辑，做成给学生用的逻辑思维训练课件。同一个核心内容，可以在不同场景里反复使用，挣好几份钱。

面对这些变化，我们国家的广电行业不能干等着。

第一件事，就是要密切关注这些新技术。要有一个专门的团队去评估，看看这些工具到底好不好用，适合用在哪。比如，新闻节目要求绝对真实，可能暂时用不上。但是综艺节目的片头、电视剧里的一些特效场景，就可以先试试。要找到适合我们自己的用法。

第二件事，要尽快建立我们自己的工具和素材库。不能总指着用国外的模型。我们需要有自己的、安全可控的智能工具。电视台和视频平台可以联合起来，建立一个共享的、高质量的视听素材库。大家一起制定AI生成内容的标准。这样才能把整个流程打通，不被别人限制。

第三件事，要守好安全的底线。技术越厉害，被滥用的风险就越大。用AI生成假新闻，或者伪造他人影像，这些都是很危险的事情。所以，必须建立一套完整的管理体系。比如，所有AI生成的内容，都必须有一个明确的标识，让观众一眼就能看出来。视频里用到的素材，都要能追溯到来源。版权问题也要有明确的规定。只有在安全、合规的前提下，这些新技术才能真正为行业带来好处。

# AI提示词