zhendi / issue-to-ai-search

0 stars 0 forks source link

OpenAI Sora 技术解析 #7

Open zhendi opened 9 months ago

github-actions[bot] commented 9 months ago
  1. Sora模型的两个主要原则是什么?

    • 大规模 (Large-scale):数据大,模型大,算力大。
    • 生成式 (Generative):采用基于文本条件下的扩散模型 (Diffusion model),而不用类似GPT的自回归。
  2. Sora模型是如何将视频数据转换为统一表示空间的?

    • 先将视频压缩到潜空间,再将视频分块成词元。
  3. Diffusion Transformer (DiT) 模型是如何将Transformer与Diffusion模型结合起来的?

    • Diffusion Transformer (DiT) 模型将Stable Diffusion扩散模型中的Unet网络替换成N个DiT模块。
  4. Sora模型生成的内容具有哪些特点?

    • 能够生成不同尺寸的分辨率,支持2K的分辨率 (横屏1920x1080p,竖屏1080x1920p)。
    • 提高视频取景和构图的质量。
    • 能够呈现出三维场景一致性、长距离相干和物体恒存、能够与世界交互、能准确模仿由于人或者动物的行为引发的物理空间发生的变换。
  5. Sora模型有哪些可能的应用场景?

    • 画质增强
    • 在空间或者时间上延展视频
    • 通过文字描述把图片变成视频
    • 拼接融合多个视频