OpenAI首个视频生成模型Sora问世,“引爆”世界科技圈 视觉中国图
Sora具有碾压优势
OpenAI官网介绍,Sora是一种扩散模型,它从看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐对其进行转换生成视频。Sora能够一次生成整个视频,或扩展生成的视频。通过一次性为模型提供多个帧的预见,OpenAI解决了一个具有挑战性的问题,即确保主题即使暂时离开视野也保持不变。
与GPT模型类似,Sora使用Transformer架构,建立在过去对DALL-E和GPT模型的研究之上。它使用DALL·E 3的重述技术,该技术涉及为视觉训练数据生成高度描述性的标题。因此,该模型能够更精准遵循生成用户的文本指令。
《每日经济新闻》记者注意到,大多数主要的AI公司多年来一直在研究“文生视频”工具,一些公司已经发布用户可以使用的软件。在Sora发布之前,最新版本的Runway就是最先进的“文生视频”技术,可以根据文本提示制作短视频。
从OpenAI发布的演示视频看,Sora生成的视频有丝滑的移动运镜、场景转换,还可以自行分镜、切换景别,这意味着Sora可能让普通人以极低的门槛制作自己的电影。更值得一提的是,此前的文生视频模型,由于是生成单镜头,一旦输入新提示词,就会生成新镜头,主角就会变换,而Sora生成的视频,在视角转换、镜头景别切换后,仍保持主体的一致性。
中信建投认为,Sora采用扩散模型+Transformer模型,通过一定的数据处理实现了更为广泛的数据集,Sora模型带来的震撼背后是一次数据驱动下的能力突破。基于海量数据训练的Sora模型同样观察到了大语言模型中的涌现现象,Sora能够深度模拟现实世界中人类、动物和环境的物理规律,标志着人工智能在理解真实世界场景并与之互动方面迈出了重大的一步,Sora或成为实现通用人工智能的重要里程碑。
谈到Sora相较于市面上已有的“文生视频”类技术的优势时,一位从事AI大模型研究多年的匿名人士在接受《每日经济新闻》记者采访时指出,首先是生成视频的时长,之前“文生视频”技术普遍水平在4秒,Sora现在可以直接1分钟,时间越长,一致性、连贯性的难度也陡增;其次,Sora可以基于一个提示词,生成不同角度的视频,类似现实中的多机位拍摄,表明它已经可以构建一个三维的空间;另外,Sora还可以“文生视频”“图生视频”,甚至“视频生视频”,可用性明显增加;最后,Sora似乎展现了模拟真实世界物理规律的能力,但这一点还有争议,如果成真,那也就意味着世界向通用人工智能迈出了步。
而针对Sora对行业的冲击,上述人士对《每日经济新闻》记者说道:“首当其冲的将是AI视频、AI图片赛道的玩家,OpenAI在这方面展示了碾压性实力,算法、算力、数据的难度比文本大模型更高,成为同行追赶的硬门槛。Sora的出现,意味着视频生成门槛大幅降低。广告、影视、短视频等行业也会有较大改变,但Sora只是降本增效的工具,核心依然是内容创意。”
多家美股公司受冲击
然而,让人始料不及的是,Sora的第一波冲击,却是在美股二级市场上。
美国电脑软件公司Adobe在Sora发布的次日(2月16日)股价暴跌7.41%,创去年11月1日以来新低,市值在短短一个交易日蒸发近198亿美元。
Adobe主要从事多媒体制作类软件的开发,近年亦开始涉足互联网应用程序、市场营销应用程序、金融分析应用程序等开发。Adobe开发的非线性编辑之视频剪辑软件,被广泛用于视频剪辑等领域。
同日,美国图片库、图片素材、图片音乐和编辑工具供应商Shutterstock跌5.44%,市值一个交易日蒸发9360万美元。
公开资料显示,Shutterstock总部位于纽约,由程序员和摄影师强·欧宁杰于2003年创立,该公司拥有约2亿张免版税的图片、矢量图和插图库,还有约1000万个影片剪辑和音乐曲目可授权给用户使用。
X(原推特)上有用户发帖称,Shutterstock每年销售价值约10亿美元的库存照片和视频,(但现在)人们意识到人工智能生成的视频和图像可能会摧毁这个行业。在这条帖子的下方,特斯拉CEO马斯克评论表示,“是的”。
此外,美国搜索引擎巨头谷歌母公司Alphabet当日也下跌1.58%,市值一天蒸发279亿美元,且表现落后于微软(下跌0.72%)、亚马逊(下跌0.69%)和Meta(上涨2.27%)等美股蓝筹股。
就在OpenAI发布Sora的几周前,谷歌才刚发布视频生成模型Lumiere。有分析认为,强大的Sora让谷歌的Lumiere显得相形见绌。股价的下跌凸显了市场对OpenAI人工智能服务可能影响谷歌在搜索行业主导地位的担忧,但分析师认为,OpenAI正在开发的搜索产品给Alphabet带来的风险相对较小。
每日经济新闻