在AI视频天生这块,“遥遥当先”成真了
有新闻称,字节跳动视频天生模型Seedance 2.1将于近期颁布,预计生功成效较2.0版本提升20%。字节对字母AI暗示,此新闻为假新闻。
固然Seedance 2.1不定会于近期颁布,但是Seedance 2.0在海表热度大涨却是真的。
原因在于,周末,一篇标题为《中国人为智能企业在视频天生较量中领跑美国敌手》(Chinese AI groups pull ahead of US rivals in video generation race)的文章在海表刷屏了。
文章以Seedance 2.0和可灵3.0为主题论据,得出了一个让人意表的结论“中国在AI视频天生领域,不仅当吓宗美国,并且这个优势还将始终维持下去。”
这个判断听起来几多有点反直觉,它更像是一种对中国AI的吹牛。终于从前几年,AI行业从来都是硅谷先推出某种产品,而后才有中国类似的产品,这点我们有木懿见。
但阅读完表媒的概想后我发现,的确是我想的太单方面了,中国AI视频天生这块,还真就当吓宗美国。
文章中特意采访了几位美国AI创业者,以及使用AI视频天生技术的电影造作人,了局就是,各人一致以为中国的AI视频工具已经全面超过了美国同业。
更关键的是,这种当先不是那种阶段性的技术当先,而是一种全面当先,从数据到落地,每一个环节都当先。
不但如此,这个当先是那种“无法被超过”确当先。也就是说,这个当先职位会一向维持下去。
遥遥当先成真了?
中国AI为何将始终当吓宗美国AI?
文章的一个论据是,在AI视频天生领域,算法层面的差距在急剧缩幼。
当前各家公司在技术架构上已经“大差不差”了。Transformer、扩散模型、时空把稳力机造,这些底层技术路线已经相对通明。
所以关键问题就在于,谁把握的训练数据质量更高、数量更多。
这正好撞上了字节和快手最善于的处所。 抖音、快手正本就是全球最大的视频出产机械之一。
更沉要的是,这些数据带有齐全的用户行为标注。
哪些视频被点赞珍藏转发、哪些视频完播率高,后盾数据了如指掌。
并且这些标注不必要人为打标,它都是用户真尝试为天然天生的。这种带标注的高质量数据,你在市场上花钱都不愿定买得到的。
相比之下,OpenAI和Anthropic是没有视频数据堆集的。
OpenAI在推出Sora时,重要依赖的是从互联网爬取的公开视频数据,以及部门授权的影视素材。
问题就是,互联网上的公开视频往往质量参差不齐,有大量的沉复内容、低质量内容,甚至是带有水印和告白的二次加工内容。
所以在训练过程中,时时出现事倍功半的情况。
在全球评测平台Artificial Analysis上,字节的Seedance 2.0、快手的可灵3.0,与阿里的HappyHorse一路,这三款中国工具包揽了文生视频和图生视频榜单的前几名。
这个榜单是由真实用户投票产生的,这也就是说,各人都感触这三家AI视频天生的内容好看。
固然谷歌寂仔Youtube作为数据源,也有视频天生模型Veo 3。
但谷歌的问题就在于约束太多,Youtube上视频时长釉煺遍超过5分钟,但是此刻的GPU还没法子容得下那么长、那么高清的视频作为训练数据,这会导致模型在训练过程中出现故障。
这就导致Veo 3的市场反映并没有很好,低于Seedance 2.0和可灵3.0这样的中国AI视频天生模型。
Director AI首创人Ben Chiang暗示。“我们尝试过的大无数美国模型,但是在视频天生方面阐发都不够好”。所以他目前重要使用可灵、Seedance 2.0和海螺等中国工具进行创作。
独立AI电影造作人George Won暗示“Seedance 2.0是一个扭转游戏规定的工具。它能处置激进的镜头角度和速度,而不会迷失角色的面部细节或光影对比。大无数AI模型在急剧活动时会起头摇摆或漂移。”
并且这种数据优势还能让产品进杏装自我强化”。
字节已经将Seedance 2.0整合进了剪映等创作工具,因而字节每天还能获得超过5000万条天生视频的反馈数据。
这样一来,字节就能知路说“这条视频是用户中意的,这条是用户不中意的”。
每收到一条这样的反馈,下一代Seedance产品的发展方向就更明确一点。
这种持续的、大规模的、真实场景下的反馈循环,同样也是OpenAI和Anthropic那样的尝试室环境无法比力的。
即便投入再多资源,也很难在短期内成立起类似的数据飞轮。
技术能够追赶,算法能够仿照,但生态和数据的堆集必要功夫,必要用户基础,必要一个齐全的产品关环。
落地场景
企业发展AI视频,它得有一个“主张”。
数据优势只是起点,真正让技术造成竞争力的,是找到能赢利的利用场景。有了落地场景,企业能力有动力去发展AI视频天生。
在这个维度上,字节和快手同样优于美国AI。
第一个大规模落地的场景是电商视频。
从前,为一个商品拍摄一条专业视频的成本高达数千元。蕴含摄影师、灯光师、场地租赁、模特用度、后期剪辑等等。
对于大无数中幼商家来说,一个通常的淘宝店铺可能有几百个商品,全拍下来至少几十万元成本。
AI视频天生技术扭转了这一近况。
视频基础设施公司Firework的CEO Vincent Yang暗示“一家零售商要求我们为其产品页面创建10万个视频。若是没有AI,这在成本上是齐全不成行的。此刻,每个产品都能够占有自己的视频,甚至能够针对分歧客户定造多个版本。”
数据显示,带有视频的商品页面转化率比纯图文页面逾越30%到80%,并且抖音和快手自身就是中国最大的电商直播和短视频带货平台之一。
AI天生好了视频,出门右转就能直接投放。
阿里的HappyHorse模型也明确将电商视频作为主题落地场景。它支持商品展示短视频、虚构主播口播视频的批量天生。一个商家能够上传商品图片和单一的文字描述,系统就能自动天生多个版本的带货视频,每个版本针对分歧的指标人群,使用分歧的话术和展示方式。
第二个场景是告白。
传统TVC(电视贸易告白)造作周期太长了。
一条30秒的品牌告白,从创意策动到拍摄造作,往往必要好几周。
有了视频天生模型,几分钟就能天生几十个分歧版本的告白创意。
第三个场景是短剧。
AI短剧在2026年迎来了发作式增长。数据显示,2026年3月AI短剧在播数量较1月增长了138%,远超传统影视内容的造作速度。
通过AI视频天生,一个幼团队甚至幼我创作者,几天内就能够创作出来一部短剧。
还没完,字节旗下的红果短剧平台还接入了“识图找同款”职能。
这个职能很好理解,你看短剧的时辰,若是对剧中角色的穿搭、场景中的家具、门口停的汽车感兴致,能够直接点击识图,系统会推荐同款商品,直接下单采办。
相当因而把短剧造成了一个能够带来转化的贸易场景。
反观美国市场,固然有Netflix、YouTube等内容平台,但没有任何落地和转化。
美国的AI视频工具更多停顿在创意尝试阶段,唯一的贸易落地场景就是订阅会员。
并且就产品职能上来说,也是中国视频天生模型更适合贸易落地。
Seedance 2.0能够把多张素材照片、视频、声音都放进统一个AI视坡凤,Sora就不能,只能通过给模型指定一张图和文字来天生视频。
这不是由于Sora的技术不够好,而是由于它短缺一个齐全的贸易生态来承接这些技术能力。
算力天堑
但中国视频AI也有一路绕不外去的坎,那就是算力。
美国头部AI是视算力为黄金,收割市面上能买到的所有算力。
Anthropic近期签定的算力和谈总计超过10吉瓦。
这个数字蕴含租下SpaceX Colossus 1数据中心的全数算力,涵盖22万张英伟达GPU;与亚马逊的5吉瓦和谈;以及与谷歌和博通的3.5吉瓦和谈。
OpenAI同样如此。
通过与微软的深度合作,OpenAI获得了数十万张高端GPU的使用权,微软还为OpenAI专门建设了多个超大规模数据中心。
相比之下,固然中国企业在算法效能优化上获得了显著进展,但在绝对算力规模上仍存在差距。
凭据表媒统计,中美在AI算力上的差距在2023年时约为3倍,到2026岁首已经扩大到8倍左右。
除了算力,中国AI还有其他难题。
第一个就是版权了。
以Seedance 2.0为例,在刚颁布一个月左右,迪士尼、华纳兄弟、派拉蒙、Skydance、Netflix等6家好莱坞巨头结合向字节发送终场侵权函,他们称Seedance 2.0在训练阶段,未经授权大规模使用受版权;さ挠笆铀夭。
随后,字节垂危暂停原定于3月中旬的Seedance 2.0全球颁布打算。
若是你从2月份一向使用Seedance 2.0到此刻就会发现,以前能够天生的IP角色,此刻都不能使用了,转而只能使用“路人”形象。
第二个是贸易化门槛在抬高。
以Sora为代表的美国视频天生AI,经;嵊捎谑褂锰蹩罨鼐焐,中国工具更宽限,并且价值也更便宜。
但这也为中国AI公司们带来了”幸福的烦恼“。
Seedance 2.0自2月以来使用需要激增,一些用户已经遇到额度受限和列队功夫变长的问题。
表媒称,字节对部门美国企业客户采取了更沉的贸易化方式,要求客户预先支付约200万美元,用于换取模型接见权限和使用额度。
快手方面也是一样的,他们在拆分可灵业务,未来可能推动可灵单独上市。
这注明可灵是独立业务,有比快手主体更强的增长故事。
增长故事说得越大,账就越要算得明显。
不外AI视频的成本更高一些。用户天生一段几秒钟的视频,背后亏损的算力远高于天生一段文字。
天生的视频质量越高、时长越长,推理成本就越高。
好多视频天生模型都是如此,一路头很便宜,甚至免费,蹬酌户涌进来后,很快就起头限额、列队、涨价。
不是公司不想放量,是地主家也没余粮了。
所以中国视频AI接下来要面对的,不只是“能不能做出好模型”,而是“能不能把好模型造成一门好生意”。
若是价值太低,用户增长越快,吃亏越大;若是价值太高,没有效户,那就得不偿失了。
第三个是模型能力代差。
归根结底,视频天生的能力是成立在说话模型之上的。
一个视频天生模型再怎么牛,它也必要说话理解能力作为基础,去理解用户的提醒词。而后再用推理能力,来理解场景、角色的逻辑关系,并且维持天生内容的连贯。
凭据表媒的评估,OpenAI的ChatGPT 5.5和Anthropic的Mythos已经将当先国内AI公司9个月至1年。
这个代差体此刻多个方面,好比推理能力、高低文理解、多轮对话、复杂工作处置等。
固然中国在AI视频等垂直领域当先美国AI,但在通用大模型上,还是能感触到比力显著的差距。
总的来说,中国AI在视频天生领域确当先是实切其实的,但也不是安枕无忧。算力和基础模型的差距始终是悬在头上的剑。不外至少此刻,我们终于不用再瞻仰硅谷的背影了。
文章点评
未查问到任何数据!
颁发评论
◎欢迎参加会商,请在这里颁发您的见解、互换您的概想。