login
AI视频生成进化史
2025/09/10·StepFun can make mistakes, check important info.
按时间顺序列出市面知名的视频生成产品,比如可灵,Suno,Veo3,Seedance,都是基于什么技术底层实现AI视频生成的?
Sources
[PDF] 我们的“AI焦虑”另有源头
https://static-favicon.basemind.com/01JYZQDR2XFEGS6N23S72YSVQP
文件
[PDF] 让创意不断涌现
https://static-favicon.basemind.com/01JYZQDR2XFEGS6N23S72YSVQP
文件
视频生成大战2.0,大厂狂卷底层模型,创企5个月吸金44亿
这边,字节抢先上线AI视频生成产品即梦,将视频生成时长从常见的3-4秒拉长到12秒;沉寂许久的快手突然发布可灵大模型,惊艳的效果引发全网热议,排队人数一度接近100万。快手可灵排队申请人数 那边,创企Luma AI“弃3D投视频”,发布Dream Machine高调入局;老玩家Runway也不甘示弱,甩出新一代Gen-3模型,将物理模拟能力推向新的高度。Gen-3视频生成效果 融资战场上,战火同样炽烈。国内,爱诗科技、生数科技自3月起接连斩获亿级融资;海外,Pika在6月获得8000万美元...
https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9ndy5hbGljZG4uY29tL0wxLzcyMy8xNTg0NDM0MjA4Lzg4LzJkLzIyLzg4MmQyMjNjZDQwYTU0NTUzYWFhOWQ2MTk0MjkzYTkyLmljbw==&sign=yx:3DqV4OhRbkLh-tyg8wPgSAAnD-0=&tv=400_400
澎湃
10 web pages
文件
文件
澎湃
CSDN技术社区
CSDN技术社区
SegmentFault 思否
搜狐网
CSDN技术社区
今日头条
搜狐网

以下是按时间顺序列出的市面知名视频生成产品,以及它们基于的技术底层实现AI视频生成的简要概述:

1. Sora(OpenAI,2024年2月发布)

  • 技术底层:基于扩散模型(Diffusion Model),结合了Transformer架构,能够生成长达60秒的逼真视频1
  • 特点:能够根据文本指令准确呈现细节,模拟现实世界的物理规律,生成丰富的现实场景和富有情感的角色1

2. Stable Video Diffusion(Stability AI,2023年11月开源,2024年2月上线网页版)

  • 技术底层:基于Stable Diffusion 2.1微调而成,使用扩散模型3
  • 特点:支持图像到视频的生成,多视角合成,帧插值等功能3

3. 可灵(快手,2024年6月发布)

  • 技术底层:基于扩散模型,使用D时空联合注意力机制10
  • 特点:支持文生视频、图生视频、视频续写,能够生成复杂运动场景和电影级画质10

4. Veo 3(Google,2025年发布)

  • 技术底层:基于扩散模型,支持高分辨率(4K)视频生成10
  • 特点:在人类评估中表现优异,支持多模态视频生成10

5. Seedance 1.0(字节跳动,2025年6月发布)

  • 技术底层:基于扩散模型,使用解耦的时空双流架构和多模态旋转位置编码(MM-RoPE)5
  • 特点:支持多镜头叙事能力,运动生成的物理级真实,风格控制的精细化5

6. 海螺 AI 视频(2025年7月发布)

  • 技术底层:基于扩散模型,结合了多模态视频解析引擎、时序动态建模和生成式视频优化器6
  • 特点:支持从文本/图片生成符合物理规律的视频内容,模拟专业导演的镜头语言6

7. 其他知名产品

  • Runway Gen-3(Runway,2024年发布):基于扩散模型,将物理模拟能力推向新的高度3
  • Vidu(生数科技,2024年4月发布):基于扩散模型,支持生成长达16秒、分辨率1080P的视频3
  • 即梦(字节跳动,2024年发布):基于扩散模型,支持生成长达12秒的视频3

技术底层概述

这些视频生成产品主要基于以下技术底层实现AI视频生成:

  1. 扩散模型(Diffusion Model):这是目前主流的视频生成技术,通过逐步添加噪声和去噪的过程生成高质量的视频内容4
  2. Transformer架构:用于处理文本输入,将自然语言描述转化为向量表示,以指导视频生成8
  3. 卷积神经网络(CNN):用于处理图像和视频帧,提取视觉特征4
  4. 循环神经网络(RNN):用于处理时间序列数据,保持视频帧之间的连贯性8
  5. 生成对抗网络(GAN):虽然不是所有产品都明确使用GAN,但其思想(生成器和判别器的对抗训练)在视频生成中也有应用4

这些技术底层的组合和创新,使得AI视频生成产品能够生成越来越逼真、高质量的视频内容,并在各个应用场景中展现出巨大的潜力。