cssmagic / blog

CSS魔法 - 博客
http://blog.cssmagic.net/
2.8k stars 274 forks source link

OpenAI 的视频生成模型 Sora 被捧上天,但他们自己说还有这几个缺陷 #117

Open cssmagic opened 4 months ago

cssmagic commented 4 months ago

过年期间是不是被 OpenAI 的 Sora 刷屏了?但这些短视频都是在捧,信息量有限。不如跟着魔法哥去它的官网,看 OpenAI 自己怎么说。

缺陷

OpenAI 描述了目前 Sora 模型的缺陷:

“它可能难以模拟复杂场景的物理行为,并且可能无法理解特定的因果关系。例如,一个人咬了一口饼干之后,饼干上可能并没有留下咬痕。”

“模型也可能混淆提示词中的空间细节,例如混淆左右。此外,在处理随时间发生的事件时可能遇到困难,比如跟随特定的摄像机轨迹等。”

以下案例摘自 Sora 官网。

案例一

case-1

提示词:一个人奔跑的场景,Step-printing 风格,35 毫米电影拍摄。

缺陷:Sora 有时会创造出在生理上不太合理的动作。(奔跑方向反了,手脚动作节奏不合理。)

案例二

case-2-1

case-2-2

提示词:五只灰狼幼崽在偏远的碎石路上嬉戏追逐,周围是长满草的景象。幼崽们奔跑跳跃,相互追逐、咬来咬去,玩耍。

缺陷:动物或人物可能会无规律地出现,尤其是在包含大量实体的场景中。(狼崽凭空分裂出现,又合并消失。)

案例三

case-3-1

case-3-2

提示词:篮球穿过篮筐然后爆炸。

缺陷:不准确的物理建模和不自然的物体形状变化。(篮球不自然地穿过篮网,凭空出现,与篮框发生 “穿模”。)

案例四

case-4-1

case-4-2

提示词:考古学家在沙漠中发现了一把普通的塑料椅子,他们非常小心地进行挖掘和清洁。

缺陷:Sora 未能将椅子建模为刚性物体,导致了不准确的物理交互。(椅子飘动、分裂、变形。)

案例五

case-5-1

case-5-2

提示词:一位梳理整洁的银发奶奶站在木制餐桌后面,桌上放着一个彩色生日蛋糕,上面插满了蜡烛……她俯身轻轻吹灭蜡烛……奶奶穿着印有花纹的浅蓝色衬衫,可以看到几位坐在桌旁庆祝的快乐朋友和家人……

缺陷:Sora 目前还很难正确模拟物体和多个角色之间的复杂互动,有时会产生滑稽的结果。(蜡烛火焰方向奇怪,吹气后蜡烛无反应,背景人物动作不自然等。)

其他观察

观察官网上的其他演示,我们还可以发现诸如 “行走时脚在地面滑动”、“人物眼神不自然”、“人物表情略有恐怖谷效应” 等现象。

不过这都是 Sora 的 “越级” 能力所暴露出来的问题。当下同一赛道的其他产品还无法生成自由度如此之高的视频。

再补充一些有意思的信息

附录


本文在 “CSS魔法” 微信公众号首发,扫码立即关注:

weixin-qrcode


© Creative Commons BY-NC-ND 4.0   |   我要订阅   |   我要打赏