AI视频生成进化史
2025/09/10·StepFun can make mistakes, check important info.
按时间顺序列出市面知名的视频生成产品,比如可灵,Suno,Veo3,Seedance,都是基于什么技术底层实现AI视频生成的?
视频生成大战2.0,大厂狂卷底层模型,创企5个月吸金44亿
这边,字节抢先上线AI视频生成产品即梦,将视频生成时长从常见的3-4秒拉长到12秒;沉寂许久的快手突然发布可灵大模型,惊艳的效果引发全网热议,排队人数一度接近100万。快手可灵排队申请人数 那边,创企Luma AI“弃3D投视频”,发布Dream Machine高调入局;老玩家Runway也不甘示弱,甩出新一代Gen-3模型,将物理模拟能力推向新的高度。Gen-3视频生成效果 融资战场上,战火同样炽烈。国内,爱诗科技、生数科技自3月起接连斩获亿级融资;海外,Pika在6月获得8000万美元...
以下是按时间顺序列出的市面知名视频生成产品,以及它们基于的技术底层实现AI视频生成的简要概述:
1. Sora(OpenAI,2024年2月发布)
- 技术底层:基于扩散模型(Diffusion Model),结合了Transformer架构,能够生成长达60秒的逼真视频1。
- 特点:能够根据文本指令准确呈现细节,模拟现实世界的物理规律,生成丰富的现实场景和富有情感的角色1。
2. Stable Video Diffusion(Stability AI,2023年11月开源,2024年2月上线网页版)
- 技术底层:基于Stable Diffusion 2.1微调而成,使用扩散模型3。
- 特点:支持图像到视频的生成,多视角合成,帧插值等功能3。
3. 可灵(快手,2024年6月发布)
- 技术底层:基于扩散模型,使用D时空联合注意力机制10。
- 特点:支持文生视频、图生视频、视频续写,能够生成复杂运动场景和电影级画质10。
4. Veo 3(Google,2025年发布)
- 技术底层:基于扩散模型,支持高分辨率(4K)视频生成10。
- 特点:在人类评估中表现优异,支持多模态视频生成10。
5. Seedance 1.0(字节跳动,2025年6月发布)
- 技术底层:基于扩散模型,使用解耦的时空双流架构和多模态旋转位置编码(MM-RoPE)5。
- 特点:支持多镜头叙事能力,运动生成的物理级真实,风格控制的精细化5。
6. 海螺 AI 视频(2025年7月发布)
- 技术底层:基于扩散模型,结合了多模态视频解析引擎、时序动态建模和生成式视频优化器6。
- 特点:支持从文本/图片生成符合物理规律的视频内容,模拟专业导演的镜头语言6。
7. 其他知名产品
- Runway Gen-3(Runway,2024年发布):基于扩散模型,将物理模拟能力推向新的高度3。
- Vidu(生数科技,2024年4月发布):基于扩散模型,支持生成长达16秒、分辨率1080P的视频3。
- 即梦(字节跳动,2024年发布):基于扩散模型,支持生成长达12秒的视频3。
技术底层概述
这些视频生成产品主要基于以下技术底层实现AI视频生成:
- 扩散模型(Diffusion Model):这是目前主流的视频生成技术,通过逐步添加噪声和去噪的过程生成高质量的视频内容4。
- Transformer架构:用于处理文本输入,将自然语言描述转化为向量表示,以指导视频生成8。
- 卷积神经网络(CNN):用于处理图像和视频帧,提取视觉特征4。
- 循环神经网络(RNN):用于处理时间序列数据,保持视频帧之间的连贯性8。
- 生成对抗网络(GAN):虽然不是所有产品都明确使用GAN,但其思想(生成器和判别器的对抗训练)在视频生成中也有应用4。
这些技术底层的组合和创新,使得AI视频生成产品能够生成越来越逼真、高质量的视频内容,并在各个应用场景中展现出巨大的潜力。