您的位置：首页>聚焦>数码 >内容

OpenAI全新发布文生视频模型Sora：现实，不存在了

2024-02-17 10:33:09来源：

导读来源：数字生命卡兹克现在是2点22分，跟朋友们打完LOL手游，准备倒头就睡。临睡前，刷了一眼X。然后，，看到了一个消息，能给我震惊成的消...

来源：数字生命卡兹克

现在是2点22分，跟朋友们打完LOL手游，准备倒头就睡。

临睡前，刷了一眼X。

然后，，看到了一个消息，能给我震惊成的消息：

OpenAI，发他们的文生视频大模型，Sora了。。。。。

而且，是强到，能震惊我一万年的程度。。。

https：//openai.com/sora

如果非要用三个词来总结Sora，那就是“60s超长长度”、“超强语义理解”和“世界模型”

我先放3个例子，再具体去说。

自动播放自动播放自动播放

我的脑海中，突然冒出了《三体》中杨冬的一句话：

“物理学，不存在了”

套用这句话。

那就是。

“现实，不存在了”

文本、图片都已经被AI攻占，而现在，AI视频，这个人类最后的最坚固的堡垒，在OpenAI的Sora攻势下，也已经很难再分清，AI和现实的界限了。

什么以前的AI视频工作流，全部成了往日泡影，全都滚犊子吧。

都TM跪下，都给OpenAI喊爸爸。

说回那三个最核心的特点：

“60s超长长度”、“单视频多角度镜头”，还有那个最核心的，“世界模型”

一． 60s超长长度

在一众AI视频，还挣扎在4s连贯性的边缘，OpenAI，直接说：

劳资支持，60s，都TM跪下。

就，太特么吓人了．．．

看这个case。

Prompt： A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage． She wears a black leather jacket， a long red dress， and black boots， and carries a black purse． She wears sunglasses and red lipstick． She walks confidently and casually． The street is damp and reflective， creating a mirror effect of the colorful lights． Many pedestrians walk about．

提示：一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去。

自动播放

60s，一镜到底，而且不止主人物稳定，连特么背景里面的人物，都稳定的难以置信。从大中景无缝切换到脸部特写。

这不是我对于AI视频这个浅薄的理解能解释的了的。

我完全不知道是如何能实现出来的，官网的解释是：

等他们的技术文档。

二．单视频多角度镜头

现在的AI工作流，都是单镜头单生成，一个视频里面，有多角度的镜头，主体还能保证完美的一致性，这在以前，是无法想象的．．．

但是OpenAI直接一句Prompt，在一分钟的镜头里，实现了多角度的镜头切换．．．而且．．．物体一致．．．

Prompt： A beautiful silhouette animation shows a wolf howling at the moon， feeling lonely， until it finds its pack．

提示：一个美丽的剪影动画展示了一只狼对着月亮嚎叫，感到孤独，直到它找到狼群。

太特么吓人了，一只狼对着月亮嚎叫，感到孤独，直到它找到狼群。

自动播放

孤独。

这个词，在这个视频里，被描述的淋漓尽致。

而且，多镜头，无缝切换，而且每一个分镜，都用的极其讲究。。。

这就像其他家AI视频，还在冷兵器作战，刀剑相拼，这玩意直接把超电磁炮掏出来了。。。然后一炮直接轰在大家大脑门上了。。。

三．世界模型

我之前写过一篇文章，聊过一些关于世界模型的话题。

在我的理解里，世界模型最难的，是收集、清洗数据。

Runway的世界模型，毫无动静。

但是OpenAI的Sora，直接来了一波大的。

前面的视频case，其实已经能看出Sora，已经能懂物理规律了。

比如这个Case：

Prompt： A cat waking up its sleeping owner demanding breakfast． The owner tries to ignore the cat， but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer．

提示：一只猫叫醒熟睡的主人，要求吃早餐。主人试图忽视这只猫，但猫尝试了新的策略，最后主人从枕头下拿出秘密藏匿的零食，让猫再呆一会儿。

自动播放

这个视频最离谱的在于．．．

猫在AI里．．．能踩奶了．．．．．．．．这．．．．．．．．．．养猫的人，都一定深有感触。。。

还有一个开车的case，吊打全世界所有AI视频：

Prompt： The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope， dust kicks up from it’s tires， the sunlight shines on the SUV as it speeds along the dirt road， casting a warm glow over the scene． The dirt road curves gently into the distance， with no other cars or vehicles in sight． The trees on either side of the road are redwoods， with patches of greenery scattered throughout． The car is seen from the rear following the curve with ease， it seem as if it is on a rugged drive through the rugged terrain． The dirt road itself is surrounded by steep hills and mountains， with a clear blue sky above with wispy clouds．

提示：镜头跟随一辆带有黑色车顶行李架的白色老式SUV，它在陡峭的山坡上一条被松树环绕的陡峭土路上加速行驶，轮胎扬起灰尘，阳光照在SUV上飞驰。土路，给整个场景投射出温暖的光芒。土路缓缓地蜿蜒延伸至远方，看不到其他汽车或车辆。道路两旁都是红杉树，零星散落着一片片绿意。从后面看，这辆车轻松地沿着曲线行驶，看起来就像是在崎岖的地形上行驶。土路周围是陡峭的丘陵和山脉，上面是清澈的蓝天和缕缕云彩。

自动播放

最后一个我也觉得很离谱的case：

Prompt： A Chinese Lunar New Year celebration video with Chinese Dragon．

提示：与中国龙一起庆祝中国农历新年的视频。

自动播放

这个真实的物理感觉，真的．．．我很希望他们是．．．过拟合了．．．．

因为之前跟某些大佬们聊，得到的信息是：

“人经历过千万年的进化，对于世界的常识，是藏在基因里的，会自动把一些冗余的信息以极快的速度，一步一步剔除直到只剩到最关键的信息，然后做做一些思考推断。但是机器没有，机器现在不懂抽象，所以需要人去做类似人类抽象化过程的学习算法，来抽离关键信息，收集视频数据。”

收集数据，是最难的。

而OpenAI，可能．．．解决了。。。