2月16日凌晨,OpenAI再次投下重磅炸弹,发布了其首个文字生成视频模型——Sora。仅需输入一段文字,Sora便能生成一段长达60秒的高清视频。
令人震撼的是,Sora所生成的画面不仅光影关系处理得当,还能精准展现各个物体间的物理遮挡与碰撞关系,并且镜头转换也非常自然和连贯。
这瞬间引起了热议,有不少人感叹“AI的进化速度太快了”。即便是钢铁侠马斯克也在社交媒体上回应道:“gg humans”(意为“打得好,我认输”)。
在大模型对真实世界有了理解和模拟之后,一扇全新的大门正在被缓缓打开。但这扇门的背后,隐藏的可能是一个充满创意和想象力的乐园,也有可能是一个充满挑战和风险的荒野。尽管目前还难有定论,但可以肯定的是,一些公司来已经吃到了Sora丰厚的红利。
01 谁会受到冲击?
或许是为了更全面地展现Sora的强大能力,OpenAI一次性发布了48个由Sora生成且未经任何修改的视频,这些视频的时长各不相同,最短的仅有9秒,而最长的则达到了60秒。
在一则60秒视频中,女主与周围的街道、人群、灯光、都非常清晰自然,完全没有AI视频常见的“掉帧”问题,甚至肢体动作、面部表情、水中倒影、墨镜折射画面都很连贯。
趋势已然显现,一个具备理解、感知及创造内容能力的AI视频模型,正将开启无尽的可能性。在社交媒体上,除了震惊,还有一片哀嚎,有不少网友感叹自己要失业了。
首当其冲的便是影视行业,许多人担心,有了Sora的加持,人人都能成为大片导演,行业将被彻底颠覆。
天使投资人郭涛对凤凰网《风暴眼》分析,Sora对影视行业影响是显而易见的,比如可以降低生产成本,加速内容的生产周期,并可能提高内容的个性化和定制性。短期内,这可能会导致一些低技能的视频制作工作受到影响,尤其是在模板化或简单编辑工作方面。
“但对于影视从业者来说,他们的创意、专业知识和高级技能仍然是必不可少的,特别是在需要复杂叙事、高质量制作和深度后期处理的项目中”,他补充道。
事实上,影视作品是情感的传递和表达。从业者需要深入理解剧本和角色的情感,才能将其准确地呈现出来。而AI虽然可以识别和分析情感,但仍然难以像人类一样真正地理解和感受情感。
北京社科院副研究员王鹏则对凤凰网《风暴眼》,不仅是影视行业、广告、新闻、教育等领域,一些简单的、重复性的视频制作工作可能会被Sora等技术所取代。
但在他看来,Sora等技术也会催生新的就业机会。例如,需要更多的人来开发、优化这些技术,同时也需要更多的人来掌握这些新技术,将其应用到实际工作中。因此,从长远来看,Sora等技术的发展可能会带来就业结构的调整。
02 降维打击
事实上,Sora的发布,对于那些专注于文本生成视频的创业公司来说,影响可能更为深远。
在Sora推出之前,已经出现了一些用户认可度较高的AI生成视频模型。
比如美国创业公司Runway推出的 Gen-2一度被看作里程碑式的存在,只需简单地一句话输入,便能直接呈现出4K超逼真的视频效果,是当时众多视频生成工具中清晰度最高的。去年拿到七项奥斯卡大奖的年度影片《瞬息全宇宙》,就使用了 Runway来制作 AI视频。
而斯坦福大学华人博士郭文景休学创业做出的Pika,不仅能根据文字、图片或视频风格生成视频,还能对视频进行精细化的局部编辑,同时支持多种画布比例的无缝转换。
据不完全统计,在2023年发布的文生视频产品并投向公众使用的创业公司超过20家。
一些企业背后的投资方更是星光熠熠。拿Runway来说,去年6月份的1.41亿美元融资中,谷歌、英伟达、Salesforce等科技巨头均位列其中。
但Sora的出现让他们黯然失色,这些企业推出的产品大多数生成的视频时长都局限在4到16秒之间,相比之下,Sora实现了跨越式的进步,直接将生成视频的时长提升至60秒。
更为关键的是,如果说之前的AI“文生视频”工具仅仅停留在“模拟现实”的层面,那么Sora则已经跃升到了“构建现实”的新高度。两者的根本区别在于,前者只是对现实世界的表面模仿,难以深入捕捉现实世界的物理规则和动态变化;而后者,则是在虚拟世界中重新构建了一种与现实世界并行的存在。
Sora不仅学习了像素与画面的呈现,更深入理解了现实世界的“物理规律”。例如,在现实世界中,我们每咬下一口食物,食物上都会留下咬痕,这是遵循物理规则的自然现象。而Sora生成的视频,同样能够精准地再现这一细节,做到“咬下去有痕迹”,从而在虚拟世界中完美再现了现实世界的真实感。而这是其他文生视频产品做不到的。
远瞻资本合伙人秦岗在接受凤凰网《风暴眼》采访时表示,随着Sora的崛起,相关公司的技术路径和市场价值将面临重新评估,甚至有可能导致它们在一级市场上估值下滑。
这并非孤例。Jasper曾一度被寄予厚望,被视为AI文本生成领域的佼佼者。2022年10月,Jasper成功融资1.25亿美元,成立仅18个月便创下了15亿美元的估值,风头一时无两。
然而,随着ChatGPT的横空出世,Jasper的命运发生了戏剧性的逆转。客户的大量流失、营收的急剧下滑,以及公司估值的不断缩水,使得Jasper从巅峰跌入了谷底,两位联合创始人也从公司离职。
鉴于Sora已经遥遥领先,秦岗认为,现在已经无需再过度关注技术层面的投资,而要关注应用层面的发展。”他进一步指出,如果这些公司能够专注于应用层,为客户提供定制化的服务,仍然有机会在市场中脱颖而出。
郭涛也提到了类似观点。他认为,这些公司可以利用Sora的先进技术开拓新的应用场景,提供更加个性化和创新的服务,从而在市场中获得竞争优势。
03 概念股暴涨
2022年以来,随着ChatGPT的崭露头角,其强大的影响力如野火燎原般迅速蔓延至国内互联网圈。百度、阿里巴巴、腾讯等一众互联网公司,仿佛嗅到了新时代的气息,纷纷宣布推出自家的大模型,意图在这波AI浪潮中占据一席之地。
然而,在文生视频这一领域,这些互联网巨头却显得有些落寞了。尽管字节跳动、阿里等公司已经上线了文生视频模型,百度文心一言也提供了相关功能,但与Sora相比,仍存在不小的差距。
以百度文心一言为例,虽然其能够根据输入的文本生成视频,但在处理复杂场景和细节描绘方面仍存在不足。
凤凰网《风暴眼》尝试输入“一位穿着时尚的女性在直播间大喊3、2、1上链接的指令”时,文心一言生成的视频内容却与预期不符,更多地是在介绍这位女性在直播间卖货的场景,而非直接展示她卖货的过程。而在文心一言输入Sora那段描述时尚女性走在东京街道的详细指令时,其并没有生成视频,而是输出了一个视频脚本。
相对于互联网巨头的低调表现,一些A股上市公司在近期却积极发声,纷纷披露自己在视频生成模型领域的业务情况。
据不完全统计,包括万兴科技、博汇科技、易点天下、数码视讯、汉王科技、当虹科技、东方国信、神思电子、因赛集团、拓尔思、国脉文化、佳都科技在内的超10家A股上市公司近三个月以来在互动平台披露视频生成模型领域的业务情况。
但凤凰网《风暴眼》深入了解后发现,真正具备实力的公司并不多。许多公司只是在跟风炒作,缺乏真正的技术储备和研发能力。
东方国信直言不讳地表示,他们在AI视频生成领域尚无成熟的技术储备,而神思电子则回应称,公司正在对文生图、图生文、视频生文、文生视频等多模态数据互相跳转的收敛性质进行深入研究,言下之意,他们在这方面的技术也还在探索阶段。
此前,因赛集团曾宣称其旗下InsightGPT可生成20秒以上的视频,能够结合多种算法和模型合成完整视频。但凤凰网《风暴眼》体验发现,其相关功能实际上更接近于智能剪辑,用户在提交描述后仍需添加素材才能完成任务。但在2月19日,因赛集团又改口称将在三月进行文生视频功能的开发,等待时机成熟后投入公测。
在春节后的首个交易日,Sora概念股气氛异常热烈,不少企业股价迎来大幅上涨,其中,当虹科技、因赛集团、万兴科技涨停封板。
然而,不容忽视的现实是,国内企业在这一领域已经晚了一步。对此,郭涛解释道,与ChatGPT不同,视频内容生成涉及更多的视觉和声音处理技术,这需要大量的研发投入和技术积累。
该如何寻找突破的路径呢?
秦岗表示,国内企业可以在特定垂直领域的应用层面找到自身的优势,并以此作为方向,实现快速发展。
王鹏则认为,国内企业要迎头赶上,需要在技术研发、人才培养和市场洞察上下功夫,同时还要考虑到国内外市场的差异性问题。在他看来,随着国内对科技创新的重视和支持力度的加大,相信未来会有更多的国内企业在这些领域取得突破。