We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
过年期间是不是被 OpenAI 的 Sora 刷屏了?但这些短视频都是在捧,信息量有限。不如跟着魔法哥去它的官网,看 OpenAI 自己怎么说。
OpenAI 描述了目前 Sora 模型的缺陷:
“它可能难以模拟复杂场景的物理行为,并且可能无法理解特定的因果关系。例如,一个人咬了一口饼干之后,饼干上可能并没有留下咬痕。”
“模型也可能混淆提示词中的空间细节,例如混淆左右。此外,在处理随时间发生的事件时可能遇到困难,比如跟随特定的摄像机轨迹等。”
以下案例摘自 Sora 官网。
提示词:一个人奔跑的场景,Step-printing 风格,35 毫米电影拍摄。
缺陷:Sora 有时会创造出在生理上不太合理的动作。(奔跑方向反了,手脚动作节奏不合理。)
提示词:五只灰狼幼崽在偏远的碎石路上嬉戏追逐,周围是长满草的景象。幼崽们奔跑跳跃,相互追逐、咬来咬去,玩耍。
缺陷:动物或人物可能会无规律地出现,尤其是在包含大量实体的场景中。(狼崽凭空分裂出现,又合并消失。)
提示词:篮球穿过篮筐然后爆炸。
缺陷:不准确的物理建模和不自然的物体形状变化。(篮球不自然地穿过篮网,凭空出现,与篮框发生 “穿模”。)
提示词:考古学家在沙漠中发现了一把普通的塑料椅子,他们非常小心地进行挖掘和清洁。
缺陷:Sora 未能将椅子建模为刚性物体,导致了不准确的物理交互。(椅子飘动、分裂、变形。)
提示词:一位梳理整洁的银发奶奶站在木制餐桌后面,桌上放着一个彩色生日蛋糕,上面插满了蜡烛……她俯身轻轻吹灭蜡烛……奶奶穿着印有花纹的浅蓝色衬衫,可以看到几位坐在桌旁庆祝的快乐朋友和家人……
缺陷:Sora 目前还很难正确模拟物体和多个角色之间的复杂互动,有时会产生滑稽的结果。(蜡烛火焰方向奇怪,吹气后蜡烛无反应,背景人物动作不自然等。)
观察官网上的其他演示,我们还可以发现诸如 “行走时脚在地面滑动”、“人物眼神不自然”、“人物表情略有恐怖谷效应” 等现象。
不过这都是 Sora 的 “越级” 能力所暴露出来的问题。当下同一赛道的其他产品还无法生成自由度如此之高的视频。
Sora 目前还处在内测阶段,还没有正式开放。OpenAI 目前只面向安全领域和创作领域的部分专家开放、征询意见。如果现在有人说可以帮你开通 Sora 账号,那一定是骗子。
Sora 生成的视频中会嵌入 C2PA 元数据。DALL·E 3 在生成图片时也会这样做。(C2PA 是一项开放的技术标准,用于在媒体文件中嵌入元数据,以验证其来源和相关信息。它不仅适用于 AI 生成的图像,也被相机制造商和新闻机构广泛采用。)
Sora 是一个扩散模型。它从一个看起来像静态噪音的视频开始,然后逐步通过多个步骤去除噪音,最终生成视频。(这里的 “扩散”,就是 Stable Diffusion 中的 “diffusion”。)
Sora 采用 Transformer 架构。(这里的 “Transformer”,就是 GPT 中的 “T”。)
除了 “文生视频” 以外,Sora 还具有 “图生视频”、对现有视频进行前后延长和衔接过渡的能力。
OpenAI 认为,Sora 可以作为理解和模拟现实世界的基础模型。他们相信这种能力将是实现 AGI 的重要里程碑。
在 Sora 的贡献者名单中,可以看到多个华人姓氏和全名。
“Sora” 这个名字来源于日语,意为 “天空”。因此这个单词原本的发音应该是 ['sɔːrɑː]。不过在英文语境中,它往往发音为 ['səʊrə]。
本文在 “CSS魔法” 微信公众号首发,扫码立即关注:
© Creative Commons BY-NC-ND 4.0 | 我要订阅 | 我要打赏
The text was updated successfully, but these errors were encountered:
No branches or pull requests
过年期间是不是被 OpenAI 的 Sora 刷屏了?但这些短视频都是在捧,信息量有限。不如跟着魔法哥去它的官网,看 OpenAI 自己怎么说。
缺陷
OpenAI 描述了目前 Sora 模型的缺陷:
“它可能难以模拟复杂场景的物理行为,并且可能无法理解特定的因果关系。例如,一个人咬了一口饼干之后,饼干上可能并没有留下咬痕。”
“模型也可能混淆提示词中的空间细节,例如混淆左右。此外,在处理随时间发生的事件时可能遇到困难,比如跟随特定的摄像机轨迹等。”
以下案例摘自 Sora 官网。
案例一
缺陷:Sora 有时会创造出在生理上不太合理的动作。(奔跑方向反了,手脚动作节奏不合理。)
案例二
缺陷:动物或人物可能会无规律地出现,尤其是在包含大量实体的场景中。(狼崽凭空分裂出现,又合并消失。)
案例三
缺陷:不准确的物理建模和不自然的物体形状变化。(篮球不自然地穿过篮网,凭空出现,与篮框发生 “穿模”。)
案例四
缺陷:Sora 未能将椅子建模为刚性物体,导致了不准确的物理交互。(椅子飘动、分裂、变形。)
案例五
缺陷:Sora 目前还很难正确模拟物体和多个角色之间的复杂互动,有时会产生滑稽的结果。(蜡烛火焰方向奇怪,吹气后蜡烛无反应,背景人物动作不自然等。)
其他观察
观察官网上的其他演示,我们还可以发现诸如 “行走时脚在地面滑动”、“人物眼神不自然”、“人物表情略有恐怖谷效应” 等现象。
不过这都是 Sora 的 “越级” 能力所暴露出来的问题。当下同一赛道的其他产品还无法生成自由度如此之高的视频。
再补充一些有意思的信息
Sora 目前还处在内测阶段,还没有正式开放。OpenAI 目前只面向安全领域和创作领域的部分专家开放、征询意见。如果现在有人说可以帮你开通 Sora 账号,那一定是骗子。
Sora 生成的视频中会嵌入 C2PA 元数据。DALL·E 3 在生成图片时也会这样做。(C2PA 是一项开放的技术标准,用于在媒体文件中嵌入元数据,以验证其来源和相关信息。它不仅适用于 AI 生成的图像,也被相机制造商和新闻机构广泛采用。)
Sora 是一个扩散模型。它从一个看起来像静态噪音的视频开始,然后逐步通过多个步骤去除噪音,最终生成视频。(这里的 “扩散”,就是 Stable Diffusion 中的 “diffusion”。)
Sora 采用 Transformer 架构。(这里的 “Transformer”,就是 GPT 中的 “T”。)
除了 “文生视频” 以外,Sora 还具有 “图生视频”、对现有视频进行前后延长和衔接过渡的能力。
OpenAI 认为,Sora 可以作为理解和模拟现实世界的基础模型。他们相信这种能力将是实现 AGI 的重要里程碑。
在 Sora 的贡献者名单中,可以看到多个华人姓氏和全名。
“Sora” 这个名字来源于日语,意为 “天空”。因此这个单词原本的发音应该是 ['sɔːrɑː]。不过在英文语境中,它往往发音为 ['səʊrə]。
附录
© Creative Commons BY-NC-ND 4.0 | 我要订阅 | 我要打赏
The text was updated successfully, but these errors were encountered: