AI视频生成进化史 | 阶跃AI

login

AI视频生成进化史

2025/09/10·StepFun can make mistakes, check important info.

按时间顺序列出市面知名的视频生成产品，比如可灵，Suno，Veo3，Seedance，都是基于什么技术底层实现AI视频生成的？

Sources

[PDF] 我们的“AI焦虑”另有源头

文件

[PDF] 让创意不断涌现

文件

视频生成大战2.0，大厂狂卷底层模型，创企5个月吸金44亿

这边，字节抢先上线AI视频生成产品即梦，将视频生成时长从常见的3-4秒拉长到12秒；沉寂许久的快手突然发布可灵大模型，惊艳的效果引发全网热议，排队人数一度接近100万。快手可灵排队申请人数那边，创企Luma AI“弃3D投视频”，发布Dream Machine高调入局；老玩家Runway也不甘示弱，甩出新一代Gen-3模型，将物理模拟能力推向新的高度。Gen-3视频生成效果融资战场上，战火同样炽烈。国内，爱诗科技、生数科技自3月起接连斩获亿级融资；海外，Pika在6月获得8000万美元...

https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9ndy5hbGljZG4uY29tL0wxLzcyMy8xNTg0NDM0MjA4Lzg4LzJkLzIyLzg4MmQyMjNjZDQwYTU0NTUzYWFhOWQ2MTk0MjkzYTkyLmljbw==&sign=yx:3DqV4OhRbkLh-tyg8wPgSAAnD-0=&tv=400_400

澎湃

10 web pages

CSDN技术社区

CSDN技术社区

搜狐网

CSDN技术社区

今日头条

搜狐网

以下是按时间顺序列出的市面知名视频生成产品，以及它们基于的技术底层实现AI视频生成的简要概述：

1. Sora（OpenAI，2024年2月发布）

技术底层：基于扩散模型（Diffusion Model），结合了Transformer架构，能够生成长达60秒的逼真视频1。
特点：能够根据文本指令准确呈现细节，模拟现实世界的物理规律，生成丰富的现实场景和富有情感的角色1。

2. Stable Video Diffusion（Stability AI，2023年11月开源，2024年2月上线网页版）

技术底层：基于Stable Diffusion 2.1微调而成，使用扩散模型3。
特点：支持图像到视频的生成，多视角合成，帧插值等功能3。

3. 可灵（快手，2024年6月发布）

技术底层：基于扩散模型，使用D时空联合注意力机制10。
特点：支持文生视频、图生视频、视频续写，能够生成复杂运动场景和电影级画质10。

4. Veo 3（Google，2025年发布）

技术底层：基于扩散模型，支持高分辨率（4K）视频生成10。
特点：在人类评估中表现优异，支持多模态视频生成10。

5. Seedance 1.0（字节跳动，2025年6月发布）

技术底层：基于扩散模型，使用解耦的时空双流架构和多模态旋转位置编码（MM-RoPE）5。
特点：支持多镜头叙事能力，运动生成的物理级真实，风格控制的精细化5。

6. 海螺 AI 视频（2025年7月发布）

技术底层：基于扩散模型，结合了多模态视频解析引擎、时序动态建模和生成式视频优化器6。
特点：支持从文本/图片生成符合物理规律的视频内容，模拟专业导演的镜头语言6。

7. 其他知名产品

Runway Gen-3（Runway，2024年发布）：基于扩散模型，将物理模拟能力推向新的高度3。
Vidu（生数科技，2024年4月发布）：基于扩散模型，支持生成长达16秒、分辨率1080P的视频3。
即梦（字节跳动，2024年发布）：基于扩散模型，支持生成长达12秒的视频3。

技术底层概述

这些视频生成产品主要基于以下技术底层实现AI视频生成：

扩散模型（Diffusion Model）：这是目前主流的视频生成技术，通过逐步添加噪声和去噪的过程生成高质量的视频内容4。
Transformer架构：用于处理文本输入，将自然语言描述转化为向量表示，以指导视频生成8。
卷积神经网络（CNN）：用于处理图像和视频帧，提取视觉特征4。
循环神经网络（RNN）：用于处理时间序列数据，保持视频帧之间的连贯性8。
生成对抗网络（GAN）：虽然不是所有产品都明确使用GAN，但其思想（生成器和判别器的对抗训练）在视频生成中也有应用4。

这些技术底层的组合和创新，使得AI视频生成产品能够生成越来越逼真、高质量的视频内容，并在各个应用场景中展现出巨大的潜力。