login
字节AI视频突破4分钟时长
2025/10/06·StepFun can make mistakes, check important info.
Sora2还在5秒打转,字节AI生视频已经4分钟“起飞” 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 从5秒到4分钟,Sora2也做不到的分钟级长视频生成,字节做到了! 先来看一个前方潜水员拍摄的“真实”海底世界Vlog: 视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ 华生,有发现么?不同于一般的AI生成视频,只有短短几秒钟……这个片子全程1分40秒,都是“水分”、都是AI。 这就是字节和UCLA联合提出的新方法——Self-Forcing++,无需更换模型架构或重新收集长视频数据集,就能轻松生成分钟级长视频,也不会后期画质突然变糊或卡住。 通过利用教师知识和自生成视频片段指导自回归生成,最长生成视频可达4分15秒,而且高质量、还开源。 话不多说,再看几个视频效果尝尝鲜。 长达3分钟的无人机视角下的海岸线,be like: 视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ 时长拉到极致,4分15秒跟随大象的脚步纵览草原美景。 视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ 而相同时长下,此前的长视频生成SOTASkyReels做出的效果是酱紫的:(重生之我成为一只蚂蚁) 视频链接:https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ Self-Forcing++在短时长上继承了Self-Forcing的高质量画面效果,长时长生成也能达成性能指标All kill,视觉稳定性大幅领先CausVid等方法。 或许,AI电影时代离我们已不再遥远……下面来康康更多详细内容。 B从5秒到4分15秒 先一起来思考下这个问题:为啥现在的AI视频质量这么高,但还是很容易被人捉虫AI生成? 其实bug就出自视频长度。 无论是Sora2、字节Wan,还是腾讯混元、谷歌Veo,视频内容再真假难辨,长度却都只有5到10秒。 即使勉勉强强做出长视频,也是只有前几秒能看,后面画面通通崩坏。 原因无他,传统扩散视频生成模型依赖Transformer结构,即使改用双向教师模型将知识蒸馏给学生模型,由于模型本身无法生成长视频的限制,还是会持续不断积累误差。 于是针对这一问题,字节提出Self-Forcing++方法抑制后期质量下降,不再依赖长视频教师模型训练,而是让模型在自己的错误中成长。 首先是视频长度上,分别从噪声初始化、蒸馏方式、缓存机制三方面优化训练过程: 反向噪声初始化:让学生模型生成远超5秒(实验用100秒)的干净帧序列,再按扩散噪声调度向序列中重新注入噪声。 扩展分布匹配蒸馏:在帧序列生成后,从中随机抽取5秒连续窗口,计算学生与教师模型在窗口内的分布差异(KL散度),然后通过最小化该差异完成训练。 滚动KV缓存训练:在训练与推理阶段均采用滚动KV缓存,训练时用该缓存生成远超教师监督时长的序列,用于扩展DMD计算。 简单来说,就是让LLM在犯错-修正-再犯错的循环中,逐渐学会长时间的稳定生成。 另外,由于自回归模型使用滑动窗口或稀疏注意力生成长序列时,容易出现长时记忆丢失的情况,还需要引入组相对策略优化(GRPO)改善视频平滑性。 通过计算每一步的重要性权重,结合当前自回归生成的对数概率总和,衡量生成策略的合理性,再将相邻帧光流的相对大小作为运动连续性代理指标,引导模型优化,最终可有效减少画面突变异常。 研究人员同时发现,现有长视频评估所使用的VBench基准并不完全准确,一些过亮的坏视频也会被误判为好。 为此他们将Gemini-2.5-Pro作为评委,让模型按照过曝光、误差积累等维度以0-100分评分,可以更为精准地衡量视觉稳定性(Visual Stability)。 这一点在后续的实验结果中也得以验证。 B兼顾时长和质量 研究人员主要设计了两类场景评估,分别对比该方法与基准模型(包括自回归模型与双向模型)在短时长视频质量和长时长生成上的效果。 其中短时长场景(5s)仍然采用VBench基准,根据946个提示词从16个维度评估生成质量。 结果显示,Self-Forcing++在语义得分(80.37)和总得分(83.11)上均超过NOVA、SkyReels-V2、CausVid等模型,只略低于Wan2.1的总得分84.67。 说明Self-Forcing++虽并未专门针对短视频进行训练,但其在短时长场景中仍能保持高视觉质量与语义一致性。 在50秒生成时,视觉稳定性得分为90.94,远超CausVid(40.47)和Self-Forcing(40.12),动态程度更是Self-Forcing得分的1.6倍,文本对齐得分(26.37)也高于多数基准,证明其在中长时长场景的稳定性。 而在75秒到100秒生成中,文本对齐得分可达26.04、动态程度为54.12,相比CausVid分别提升6.67%和56.4%,相比Self-Forcing则提升18.36%和104.9%。 视觉稳定性得分(84.22)为Self-Forcing(32.03)的2.6倍,且framewise质量(60.66)与基准模型相当,说明其在极长时长下仍能保持高保真度与一致性。 长视频生成通常存在的失效模式,如运动停滞、保真度退化,Self-Forcing++均未出现类似情况,视频全程保持连贯运动和稳定亮度及质量。 最终实验验证得出,Self-Forcing++可最长生成4分15秒的视频,比原先的5秒提升近50倍,且在保真度和一致性上优于基线方法。 参考链接: [1]https://self-forcing-plus-plus.github.io/ [2]https://arxiv.org/abs/2510.02283 — 完 — 量子位 QbitAI 关注我们,第一时间获知前沿科技动态这个是真的吗

Requirement clarification

我需要分析这个关于AI视频生成技术的新闻报道,了解其核心内容和可信度。

基于用户提供的文章,这是一篇关于字节跳动与UCLA联合开发的名为"Self-Forcing++"的AI视频生成技术的报道。文章声称该技术能生成长达4分15秒的高质量AI视频,远超当前主流技术(如Sora2)的5-10秒限制。

核心技术点包括:

  1. 通过反向噪声初始化、扩展分布匹配蒸馏和滚动KV缓存训练三个方面优化
  2. 引入组相对策略优化(GRPO)改善视频平滑性
  3. 使用Gemini-2.5-Pro作为评估标准

文章提到有论文链接(https://arxiv.org/abs/2510.02283)和项目网站,这增加了可信度。

我需要确认这项技术突破的真实性和影响力。

搜索

Search

Self-Forcing++ ByteDance UCLA AI video generation 4 minutes
GitHub Pages
Real-Time Video Generation. Our model generates high-quality 480P videos with an initial latency of ~0.8 seconds, after which frames are generated in a ...
aigc.douyoubuy.cn
aigc.douyoubuy.cn
以上是Self Forcing项目介绍、安装与体验过程。以及closerAI团队制作的stable diffusion comfyUI closerAI搭建的closerAI Self Forcing+VACE图生视频工作流介绍,大家可以根据工作流思路进行尝试搭建。当然,也可以在我们closerAI会员站上获取对应的工作流 (查看原文) 。以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。>/ 作者:JimmyMo更多AI前沿科技资讯,请关注我们:closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台添加图片注释,不超过 140 字(可选)主题授权提示: RiTheme官网
aigc.douyoubuy.cn
aigc.douyoubuy.cn
1、核心创新:模拟推理过程的训练方法Self Forcing 的核心创新在于其独特的训练策略。 该方法通过在训练过程中模拟推理过程,并结合 KV 缓存技术进行自回归展开,成功解决了传统自回归视频扩散模型中训练与测试分布不匹配的问题。这种训练方式使得模型在生成视频时能够更准确地捕捉时间序列的动态变化,从而 生成更加自然、流畅的视频内容 。与传统方法相比, Self Forcing 在保证生成质量的同时,还大幅提升了模型的推理效率,使得在单张消费级显卡上实现实时视频生成成为可能。添加图片注释,不超过 140 字(可选)生成视频质量从项目展示的示例来看,Self Forcing 生成的视频内容丰富、细节逼真。无论是陶瓷茶杯向玻璃杯倒水时水流的平滑流动和涟漪效果,还是暴雨中女孩在森林里狂奔的混乱而动态的场景,模型都能精准捕捉到场景中的各种细节和动态变化。在一个示例中,模型生成了一只白色绵羊弯腰从平静的河流中饮水的场景。绵羊蓬松的羊毛、弯曲的长角和柔软的棕色眼睛都刻画得栩栩如生,河流轻轻流淌,倒映着周围的绿色植被和蓝天,整个画面营造出一种宁静的田园风光。
www.thepaper.cn
www.thepaper.cn
论文地址:https://self-forcing.github.io/static/self_forcing.pdf 项目主页:https://self-forcing.github.io/ 这种机制使得模型能够运用整体分布匹配损失函数(holistic distribution-matching losses)对完整的生成视频序列进行监督。通过迫使模型在训练中面对并从其自身的预测错误中学习,Self Forcing 算法能有效减轻暴露偏差并减少误差的累积。 尽管由于 Self Forcing 的序列特性会阻碍并行训练,乍看之下似乎在计算上代价高昂,但该研究证明,它可以高效地作为训练后阶段的一种算法来实现,此时模型在该阶段并不需要大量的梯度更新即可收敛。 通过采用少量步数的扩散主干网络以及精心设计的梯度截断策略,Self Forcing 算法的效率出乎意料地优于其他并行策略,在相同的实际训练时间内实现了更优的性能。此外,该研究还引入了一种滚动 KV 缓存机制,进一步提升了视频外推的效率。 该模型能够在单个 H100 GPU 上以 17 FPS 的帧率实现实时视频生成,延迟低于一秒,同时在生成质量上与近期较慢的双向和自回归视频扩散模型相比具有竞争力或更优。 这些进步为真正的交互式视频生成用例 —— 如直播、游戏和世界模拟 —— 打开了大门,在这些场景中,延迟预算以毫秒而非分钟为单位进行衡量。
腾讯网
腾讯网
项目主页:https://self-forcing.github.io/ 这种机制使得模型能够运用整体分布匹配损失函数(holistic distribution-matching losses)对完整的生成视频序列进行监督。通过迫使模型在训练中面对并从其自身的预测错误中学习,Self Forcing 算法能有效减轻暴露偏差并减少误差的累积。 尽管由于 Self Forcing 的序列特性会阻碍并行训练,乍看之下似乎在计算上代价高昂,但该研究证明,它可以高效地作为训练后阶段的一种算法来实现,此时模型在该阶段并不需要大量的梯度更新即可收敛。 通过采用少量步数的扩散主干网络以及精心设计的梯度截断策略,Self Forcing 算法的效率出乎意料地优于其他并行策略,在相同的实际训练时间内实现了更优的性能。此外,该研究还引入了一种滚动 KV 缓存机制,进一步提升了视频外推的效率。 该模型能够在单个 H100 GPU 上以 17 FPS 的帧率实现实时视频生成,延迟低于一秒,同时在生成质量上与近期较慢的双向和自回归视频扩散模型相比具有竞争力或更优。 这些进步为真正的交互式视频生成用例 —— 如直播、游戏和世界模拟 —— 打开了大门,在这些场景中,延迟预算以毫秒而非分钟为单位进行衡量。

根据搜索结果,我发现关于"Self-Forcing++"的具体信息较少,但有关于"Self-Forcing"的相关研究。我需要澄清用户提到的新闻报道的准确性和相关技术细节。

搜索结果显示,确实存在名为"Self-Forcing"的AI视频生成技术,由Adobe和德克萨斯大学奥斯汀分校共同开发,而非字节跳动和UCLA。该技术主要解决自回归视频生成中的暴露偏差问题,能够生成高质量视频,但目前能力是生成基础5秒视频和外推延展后的10秒视频,而非原文提到的4分15秒。

这与用户分享的新闻中提到的"Self-Forcing++"技术(声称可生成4分15秒视频)存在明显差异。我需要向用户确认一些关键信息,以便更好地理解这篇报道的真实性。

  1. 您分享的文章提到的是"Self-Forcing++"技术,而搜索结果主要显示的是"Self-Forcing"技术,两者是否有关联?
  2. 文章提到该技术由字节跳动和UCLA联合开发,但搜索结果显示Self-Forcing是由Adobe和德克萨斯大学开发的,您是否有更多信息确认开发方?
  3. 您能否分享文章中提到的arxiv论文链接(https://arxiv.org/abs/2510.02283)的具体内容或项目网站(self-forcing-plus-plus.github.io)的截图?
跳过

好的,这是为你制定的计划。

Research plan
  1. 访问并解析文章中提供的Self-Forcing++项目主页(self-forcing-plus-plus.github.io)和ArXiv论文链接(arxiv.org/abs/2510.02283),提取该技术的核心摘要、作者信息及所属机构。
  2. 在ArXiv、Google Scholar等学术网站上,核实论文《Self-Forcing++》的作者及其单位,以确认该技术是否由字节跳动和UCLA联合提出。
  3. 访问并分析搜索结果中提到的Self-Forcing项目主页(self-forcing.github.io)及其关联论文,明确其开发者(Adobe与德克萨斯大学)和技术细节。
  4. 对比Self-Forcing与Self-Forcing++两篇论文的摘要、引言和方法部分,判断两者之间是否存在继承、改进或完全独立的关系。
  5. 在Self-Forcing++的论文和项目网站中,查找关于视频生成时长(如4分15秒)和性能对比(如与Sora2、SkyReels对比)的具体实验数据和示例,验证文章说法的准确性。
  6. 综合所有已核实的信息,对原始文章的关键信息点(如开发者、技术突破、视频时长)进行事实核查,并形成最终结论。
开始研究

Deep Research

网页解析

看来网站链接无法直接访问。我将改变策略,先通过搜索引擎查找关于Self-Forcing++项目的信息。

搜索

Search

Self-Forcing++ ByteDance UCLA 4 minute video generation
GitHub Pages
In this paper, we propose a simple yet effective approach to mitigate quality degradation in long-horizon video generation without requiring supervision from ...
github.com
github.com
Both Rolling Forcing and LongLive , as well as ours, are able to generate high-quality videos up to multiple minutes long, which marks a ...
xx.gzshanen.com
尽管由于 Self Forcing 的序列特性会阻碍并行训练,乍看之下似乎在计算上代价高昂,但该研究证明,它可以高效地作为训练后阶段的一种算法来实现,此时模型在该阶段并不需要大量的梯度更新即可收敛。通过采用少量步数的扩散主干网络以及精心设计的梯度截断策略,Self Forcing 算法的效率出乎意料地优于其他并行策略,在相同的实际训练时间内实现了更优的性能。此外,该研究还引入了一种滚动 KV 缓存机制,进一步提升了视频外推的效率。该模型能够在单个 H100 GPU 上以 17 FPS 的帧率实现实时视频生成,延迟低于一秒,同时在生成质量上与近期较慢的双向和自回归视频扩散模型相比具有竞争力或更优。这些进步为真正的交互式视频生成用例 —— 如直播、游戏和世界模拟 —— 打开了大门,在这些场景中,延迟预算以毫秒而非分钟为单位进行衡量。
www.thepaper.cn
www.thepaper.cn
论文地址:https://self-forcing.github.io/static/self_forcing.pdf 项目主页:https://self-forcing.github.io/ 这种机制使得模型能够运用整体分布匹配损失函数(holistic distribution-matching losses)对完整的生成视频序列进行监督。通过迫使模型在训练中面对并从其自身的预测错误中学习,Self Forcing 算法能有效减轻暴露偏差并减少误差的累积。 尽管由于 Self Forcing 的序列特性会阻碍并行训练,乍看之下似乎在计算上代价高昂,但该研究证明,它可以高效地作为训练后阶段的一种算法来实现,此时模型在该阶段并不需要大量的梯度更新即可收敛。 通过采用少量步数的扩散主干网络以及精心设计的梯度截断策略,Self Forcing 算法的效率出乎意料地优于其他并行策略,在相同的实际训练时间内实现了更优的性能。此外,该研究还引入了一种滚动 KV 缓存机制,进一步提升了视频外推的效率。 该模型能够在单个 H100 GPU 上以 17 FPS 的帧率实现实时视频生成,延迟低于一秒,同时在生成质量上与近期较慢的双向和自回归视频扩散模型相比具有竞争力或更优。 这些进步为真正的交互式视频生成用例 —— 如直播、游戏和世界模拟 —— 打开了大门,在这些场景中,延迟预算以毫秒而非分钟为单位进行衡量。
搜狐网
搜狐网
算法 2 详细描述了基于滚动 KV 缓存的自回归长视频生成算法。 实验及结果 研究者采用 Wan2.1-T2V-1.3B 模型实现 Self Forcing,这是一个基于流匹配的模型,可以生成时长 5 秒、16 帧、分辨率为 832×480 的视频。 配合 VBench 和用户偏好研究,研究者同步评估了生成视频的视觉质量与语义对齐度。同时,严格测试了 Self Forcing 在实时应用中的效率表现。在单个 NVIDIA H100 GPU 上,研究者综合评估了吞吐量和首帧延迟两项指标,全面衡量实时生成能力。 研究者将采用 Self Forcing 算法的模型与规模相近的开源视频生成模型进行比较,包括两个扩散模型(作为初始化权重的 Wan2.1-1.3B 和以高效著称的 LTXVideo)以及多个自回归模型(Pyramid Flow、NOVA、SkyReels-V2、MAGI-1 和同样基于 Wan-1.3B 初始化的 CausVid)。 如下表 1 所示,研究者提出的...
腾讯网
腾讯网
项目主页:https://self-forcing.github.io/ 这种机制使得模型能够运用整体分布匹配损失函数(holistic distribution-matching losses)对完整的生成视频序列进行监督。通过迫使模型在训练中面对并从其自身的预测错误中学习,Self Forcing 算法能有效减轻暴露偏差并减少误差的累积。 尽管由于 Self Forcing 的序列特性会阻碍并行训练,乍看之下似乎在计算上代价高昂,但该研究证明,它可以高效地作为训练后阶段的一种算法来实现,此时模型在该阶段并不需要大量的梯度更新即可收敛。 通过采用少量步数的扩散主干网络以及精心设计的梯度截断策略,Self Forcing 算法的效率出乎意料地优于其他并行策略,在相同的实际训练时间内实现了更优的性能。此外,该研究还引入了一种滚动 KV 缓存机制,进一步提升了视频外推的效率。 该模型能够在单个 H100 GPU 上以 17 FPS 的帧率实现实时视频生成,延迟低于一秒,同时在生成质量上与近期较慢的双向和自回归视频扩散模型相比具有竞争力或更优。 这些进步为真正的交互式视频生成用例 —— 如直播、游戏和世界模拟 —— 打开了大门,在这些场景中,延迟预算以毫秒而非分钟为单位进行衡量。
themoonlight.io
This page provides the most accurate and concise summary worldwide for the paper titled Self-Forcing++: Towards Minute-Scale High-Quality Video ...
GitHub Pages
Real-Time Video Generation. Our model generates high-quality 480P videos with an initial latency of ~0.8 seconds, after which frames are generated in a ...

我需要更多关于Self-Forcing++的具体信息,尤其是关于其作者和机构的信息。让我查看一下ArXiv上的论文。

搜索

Search

Self-Forcing++ arxiv 2510.02283 ByteDance UCLA
huggingface.co
huggingface.co
arxiv:2510.02283. Self-Forcing++: Towards Minute-Scale High-Quality Video Generation. Published on Oct 2. · Submitted by cuijiaxing on Oct 3. #1 Paper of ...

让我直接访问论文链接获取更详细的信息。

网页解析

已掌握的信息

  1. 技术真实性与核心能力:名为“Self-Forcing++”的技术确实存在,其研究成果已发布在学术预印本网站ArXiv上(论文编号:2510.02283)。该论文证实了这项技术的核心创新点在于无需长视频数据集即可显著延长AI视频生成时长,并通过自生成内容进行学习和优化,成功生成了长达4分15秒的高质量视频,与原文报道一致。
  2. 作者信息:论文的主要作者为Justin Cui等人。然而,目前仅从ArXiv的摘要页面无法确认这些作者的具体所属机构(如字节跳动或UCLA)。
  3. 技术传承关系:初步的网络搜索结果显示,存在一个名为“Self-Forcing”(无++)的早期技术,由Adobe和德克萨斯大学的研究者提出。这暗示“Self-Forcing++”可能是对前代技术的继承和发展,但具体关系尚需进一步确认。

下一步行动计划

  1. 确认研究机构归属:首要任务是明确论文作者的所属机构,以验证“字节跳动和UCLA联合提出”这一关键信息的真伪。计划通过查找并分析论文的PDF全文版本来获取此信息,因为学术论文通常会在首页或致谢部分明确标注作者单位。
  2. 厘清技术演进脉络:深入研究Self-Forcing++论文的引言和相关工作部分,查找其对早期“Self-Forcing”技术的引用和论述。这将帮助我们准确理解“++”版本是在何种基础上进行了怎样的改进和突破,从而判断原文对其技术描述的准确性。
  3. 核实行业背景信息:对文章中提到的“Sora2还在5秒打转”等关于其他AI视频模型的现状描述进行事实核查。将通过搜索权威科技媒体、相关公司的官方发布等渠道,了解在当前时间点(2025年10月)主流视频生成模型的公开能力,以评估原文对比的公正性和时效性。
  4. 综合信息形成最终结论:整合所有已核实的信息,对原始文章的核心论点(包括技术归属、性能突破、行业地位等)逐一进行评估,最终形成一个全面、客观的结论,判断该报道的真实性程度。
网页解析

我需要更多信息来确认Self-Forcing++与Self-Forcing的关系,以及是否真的有UCLA参与。让我查看Self-Forcing++的项目页面。

网页解析

让我尝试直接访问论文的PDF版本,这通常会包含作者的所属机构信息。

搜索

Search

Self-Forcing++ PDF ByteDance UCLA Cho-Jui Hsieh
huggingface.co
huggingface.co
Cho-Jui Hsieh. Abstract. A method is proposed to enhance long-horizon video generation by using sampled segments from self-generated long ...
escholarship.org
Belkin, Cho-Jui Hsieh, Baharan Mirzasoleiman, and Stanley J. Osher for their in- valuable feedback and suggestions throughout my Ph.D ...
scholar.google.com.hk
scholar.google.com.hk
创建我的个人资料 开放获取的出版物数量 查看全部59 篇文章 0 篇文章 可查看的文章 无法查看的文章 根据资助方的强制性开放获取政策 合著作者 "Cho-Jui Hsieh" () Cho-Jui HsiehUniversity of California, Los Angeles在 cs.ucla.edu 的电子邮件经过验证 Cho-Jui HsiehUniversity of California, Los Angeles在 cs.ucla.edu 的电子邮件经过验证 "Nanyun (Violet) Peng" () Nanyun (Violet) PengAssociate Professor, 的电子邮件经过验证 Liunian Harold LiOpenAI在 cs.ucla.edu 的电子邮件经过验证 "Da Yin" () Da YinPhD Student, UCLA在 cs.ucla.edu 的电子邮件经过验证 Da YinPhD Student, UCLA在 cs.ucla.edu
谷歌
谷歌
Cho-Jui Hsieh. University of California, Los Angeles. Verified email at cs.ucla.edu - Homepage · Machine LearningOptimization. ArticlesCited by ...
ieeexplore.ieee.org
ieeexplore.ieee.org
by S Wu · Cited by 1 — ... Cho-Jui Hsieh (UCLA, Google). Unpaired Image Super-Resolution Using Pseudo ... Yat-sen University), Xiaohui Shen (ByteDance AI Lab), Zhenyu Xie. (School ...

我已经找到了一些关于Cho-Jui Hsieh的信息,确认他是UCLA的教授,但我需要更多关于Self-Forcing++项目的具体信息,特别是作者的所属机构和与Self-Forcing的关系。让我尝试查看GitHub仓库。

网页解析

已掌握的信息

  1. 技术真实性与核心能力:已确认存在名为“Self-Forcing++”的技术,其研究成果已公开发布于ArXiv(论文编号:2510.02283)及GitHub。该技术的核心突破——无需长视频数据集即可生成长达4分15秒的高质量视频——在项目主页、论文摘要等多个信息源中得到一致性证实,与原文报道相符。
  2. 研究机构归属:已确认字节跳动(ByteDance)是该项目的主要研究机构之一。通过对作者Cho-Jui Hsieh的背景调查,证实其UCLA教授的身份,强烈暗示了UCLA的参与,但尚未在论文作者列表中直接确认所有作者的完整机构归属。
  3. 技术演进关系:已从GitHub仓库信息中明确,Self-Forcing++是在早前的“Self-Forcing”项目(由Adobe和德克萨斯大学提出)的代码库基础上构建和发展的,证实了两者间的技术继承关系。

下一步行动计划

  1. 最终确认作者机构:为彻底核实“字节和UCLA联合提出”的说法,将直接分析论文PDF全文。学术论文的首页通常会详细列出每位作者及其所属的具体研究机构,这是确认此信息最权威的来源。
  2. 评估行业背景与技术对比的准确性:对文章中关于“Sora2还在5秒打转”等行业现状的描述进行事实核查。将通过检索OpenAI、Google等公司的官方公告、权威科技媒体(如The Verge, TechCrunch)在2025年10月前后的报道,来验证当时主流视频生成模型的技术水平,从而评估原文对比的公允性和时效性。
  3. 构建综合性研究报告:在完成上述信息核实后,将整合所有信息,构建一份结构化报告。报告将首先对原文核心信息的真实性(技术归属、时长突破)进行最终确认;接着,图文并茂地解析Self-Forcing++的关键技术创新点及其与前代技术的区别;然后,通过与Sora2等竞品的横向对比,客观评估其在行业中的领先地位;最后,对原文报道的整体准确性给出明确结论。
网页解析

我现在需要验证关于Sora2和其他AI视频生成模型的现状描述,以便全面评估原文的准确性。

搜索

Search

Sora2 OpenAI 5秒视频生成限制 2025
qbitai.com
qbitai.com
通过利用教师知识和自生成视频片段指导自回归生成,最长生成视频可达4分15秒,而且高质量、还开源。 话不多说,再看几个视频效果尝尝鲜。 长达3分钟的无人机 ...
cursor-ide.com
Sora 2是OpenAI在2025-09-30发布的最新AI视频生成模型,能够根据文本描述生成高质量视频,并新增了声音生成和自拍融合功能。许多开发者迫切想知道:Sora 2 ...
cursor-ide.com
录制5-10秒自拍视频(正面、侧面、转头); 录制语音样本(朗读指定文本); 系统审核通过后(通常24小时内); 即可在生成视频时选择"使用 ...
快懂百科
快懂百科
Sora 2 1 推出背景 2 发展历程 3 功能和服务 4 相关事件 5 注释 6 参考资料 基 本 信 息 英 文 名 Sora 2[1] ...OpenAI[1] Sora 2,是 OpenAI 推出的一款视频生成模型,也称为“视频生成器”。...Sora 2以独立的应用程序形式推出,其界...
搜狐网
搜狐网
在人工智能的快速发展中,OpenAI于2025年周二推出了其最新的视频生成模型Sora2,标志着视频创作领域的一次重大飞跃。这款模型不仅提升了生成视频的真实感,还伴随着一款独立的社交应用Sora,用户可以通过名为“cameos”(客串)的功能,将自己融入人工智能生成的场景中。这一创新的发布引发了广泛关注,代表了AI技术在视频制作领域的最新进展。Sora2:视频生成的技术突破 OpenAI
今日头条
今日头条
2025年9月30日,OpenAI推出基于Sora 2的独立短视频应用,这是对TikTok的直接挑战。Sora 2亮点不少。在内容生成上,它要求所有视频由AI生成,这一创新方式或改变用户对短视频的认知。且它允许生成最长10秒的视频,契合当下用户注意力持续时间短的趋势。功能方面,...
17173新闻
17173新闻
OpenAI将推出AI版TikTok,所有短视频由Sora 2生成,支持肖像认证和10秒限制。探索最强AI视频社交应用!
站长之家
站长之家
OpenAI计划推出名为“AI版TikTok”的社交应用,基于Sora2视频生成模型。用户可滑动浏览竖屏短视频,但内容全由AI生成,不支持上传手机文件。视频时长限制在10秒内,设计理念
https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9ndy5hbGljZG4uY29tL0wxLzcyMy8xNTg0NDEyNDQ0LzgzLzdkLzI2LzgzN2QyNjBiZGI3ODg0NzQxYWNhMWMzZGQ5NWQwMTc2Lmljbw==&sign=yx:FgUrPkD016Rc89-ZBz7SYezxGYQ=&tv=400_400
https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9ndy5hbGljZG4uY29tL0wxLzcyMy8xNTg0MzI5MTIyL2ZhLzdiL2QwL2ZhN2JkMGM2MTlhODM2NmIwNzNkNWM3ZWQ0ZWFhNWUwLmljbw==&sign=yx:C1HunXUgWw_Hnydsxo7hNSZ08AU=&tv=400_400
https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9ndy5hbGljZG4uY29tL0wxLzcyMy8xNTg0MzI5MTIyL2ZhLzdiL2QwL2ZhN2JkMGM2MTlhODM2NmIwNzNkNWM3ZWQ0ZWFhNWUwLmljbw==&sign=yx:C1HunXUgWw_Hnydsxo7hNSZ08AU=&tv=400_400
View all 14 sources

现在我需要查询关于Self-Forcing的信息,以明确Self-Forcing++与Self-Forcing的关系。

搜索

Search

Self-Forcing Adobe 德克萨斯大学 视频生成
知乎
知乎
... 视频生成模型在实时交互应用中的性能边界。近日,Adobe 联合联合德克萨斯大学奥斯汀分校的研究者,在一项新研究中提出了名为Self Forcing 的新颖算法 ...
AI工具集
AI工具集
Self Forcing 是Adobe Research 与德克萨斯大学奥斯汀分校联合推出的新型自回归视频生成算法,解决传统生成模型在训练与测试时的暴露偏差问题。通过在训练阶段模拟自生成 ...
澎湃新闻
澎湃新闻
近日,Adobe 联合联合德克萨斯大学奥斯汀分校的研究者,在一项新研究中提出了名为 Self Forcing 的新颖算法,旨在解决自回归视频生成中的暴露偏差问题。该方法受到早期 RNN 时代序列建模技术的启发,通过在训练期间显式地展开自回归生成过程,来弥合训练与测试分布之间的差距。具体而言,每一帧的生成都以先前自生成的帧为条件,而不是依赖于真实的帧。论文标题:Self Forcing...
m.techwalker.com
Adobe Research和德州大学的研究团队提出了一个叫做"自我强迫"(Self Forcing)的全新训练方法,这就像是让孩子在练习写作时,不再依赖完美的范文,而是学会从自己之前写的内容(哪怕有错误)出发,继续创作并不断改进。这种方法不仅能让AI视频生成的质量更加稳定,还能实现真正的实时生成,在单个GPU上达到亚秒级的延迟,为直播、游戏和实时互动等应用打开了全新的可能性。研究团队的创新之处在于,他们彻底改变了AI...
www.baidu09.com
近日,Adobe 联合联合德克萨斯大学奥斯汀分校的研究者,在一项新研究中提出了名为 Self Forcing 的新颖算法,旨在解决自回归视频生成中的暴露偏差问题。该方法受到早期 RNN 时代序列建模技术的启发,通过在训练期间显式地展开自回归生成过程,来弥合训练与测试分布之间的差距。具体而言,每一帧的生成都以先前自生成的帧为条件,而不是依赖于真实的帧。论文标题:Self Forcing...
知乎
知乎
... Adobe 和德克萨斯大学奥斯汀分校的《Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion》。Kenji,你对这篇论文的核心 ...
腾讯网
腾讯网
近日,Adobe 联合德克萨斯大学奥斯汀分校的研究者,在一项新研究中提出了名为 Self Forcing 的新颖算法,旨在解决自回归视频生成中的暴露偏差问题。该方法受到早期 RNN 时代序列建模技术的启发,通过在训练期间显式地展开自回归生成过程,来弥合训练与测试分布之间的差距。具体而言,每一帧的生成都以先前自生成的帧为条件,而不是依赖于真实的帧。论文标题:Self Forcing:B...
什么值得买
什么值得买
实时视频生成黑科技,Adobe新研究太强了!单块4090就能搞定,游戏直播渲染门槛要被打破了,未来交互式应用前景无限啊 一块4090搞定实时视频生成!Adobe黑科技来了 Adobe联合德克萨斯大学奥斯汀分校的研究者提出了一种名为Self Forcing的新算法,旨在解决自回归视频生成中的暴露偏差问题。该算法通过在训练期间显式地展开自回归生成过程,...
https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9ndy5hbGljZG4uY29tL0wxLzcyMy8xNTU5MDk2OTU3LzNjL2M0LzJhLzNjYzQyYTVlZjVlYzNkMzRiOWYwYmUwZjFjNDVhYzZiLmljbw==&sign=yx:4ux0Ov3IaZW0IBYarBCuQnARQ74=&tv=400_400
https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9ndy5hbGljZG4uY29tL0wxLzcyMy8xNTU5MDk2OTU3LzNjL2M0LzJhLzNjYzQyYTVlZjVlYzNkMzRiOWYwYmUwZjFjNDVhYzZiLmljbw==&sign=yx:4ux0Ov3IaZW0IBYarBCuQnARQ74=&tv=400_400
https://static-favicon.basemind.com/01JV5M6462Z3XX3YDXHQMEVRAP
View all 16 sources

现在让我查询一下关于Sora2和其他AI视频生成模型的最新信息,以便更全面地评估原文的准确性。

搜索

Search

Sora2 OpenAI 视频生成 时长限制 2025年10月
中关村在线
中关村在线
2025年10月6日,国庆假期前夕,OpenAI推出了其最新一代视频与音频生成模型Sora2。该模型具备实现此前同类技术难以完成的复杂动作模拟能力,例如奥林匹克级别的运动员动作、桨板上的后空翻等,并能精确还原浮力与物体。
今天看啥
OpenAI发布了Sora 2模型以及Sora iOS社交应用,定位视频生成的“GPT-3.5时刻”。首次实现音视频同步生成,物理真实性大幅提升,支持长达16秒的连贯叙事视频。推出“客串(Cameo)”和“混音(Remix)”功能,用户可将真人录制片段融入AI场景,支持社区二次创作。发布时间为2025年10月1日,首发于美国和加拿大,并逐步放开。API会在未来几周推出,安卓版还在开发中。关键观点总结 关键观点1:
东方财富网
东方财富网
OpenAI在2025年10月2日正式发布的Sora 2模型,堪称AI领域的一次“核爆级”突破。相比初代Sora,新版本不仅支持更长的视频生成时长(最高20秒)、更高分辨率(1080p),更关键的是其对物理规律的精准模拟能力。例如,用户输入“奥运体操动作”或“桨板后空翻”等复杂场景时,Sora 2能自动生成符合力学规律的动态画面,甚至能同步生成对话与音效。这种“世界模拟器”级别的能力...
qbitai.com
qbitai.com
通过利用教师知识和自生成视频片段指导自回归生成,最长生成视频可达4分15秒,而且高质量、还开源。 话不多说,再看几个视频效果尝尝鲜。 长达3分钟的无人机 ...
cursor-ide.com
2025年10月3日. Sora 2是OpenAI在2025-09-30发布的最新AI视频生成模型,能够根据文本描述生成高质量视频,并新增了声音生成和自拍融合功能。许多开发者迫切想知道:Sora 2 ...
53ai.com
但是,北京时间10月1号的凌晨,OpenAI又发布了Sora2的更新,用Sam的话来 ... 额度: 免费用户每天最多生成50条视频,时长固定10秒,清晰度360P。
中关村在线
中关村在线
2025年10月1日,OpenAI正式发布Sora 2,这是继前一年推出Sora后在音视频生成领域的全新升级版本。此次更新不仅包含更强大的生成模型,还配套推出了一款名为Sora的社交类应用程序,旨在为用户提供创作与分享视频内容的新方式。根据官方介绍,Sora 2在理解与模拟现实世界物理规律方面取得了显著进展,能够生成更加自然、逼真...
快懂百科
快懂百科
[1]10月1日,OpenAI 发布视频生成模型Sora2,并且推出了Sora2独立应用程序。[3] 推出背景 OpenAI 于2024年12月9日推出Sora模型,尽管该模型发布初期引发广泛关注,但热度随后逐渐减弱。然而,因某科技公司在2025年将其集成至免费视频创作工具中,Sora再度受到业界的关注。[2] 发展历程 2025年9月,OpenAI
https://static-favicon.basemind.com/01JV20P1G2EJZ7PESNA3MBYQ2N
https://static-favicon.basemind.com/01JVCFCBGQDNG53CE92JZ2FYMD
https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9ndy5hbGljZG4uY29tL0wxLzcyMy8xNTYyODEzMjI0L2I0LzExL2Y3L2I0MTFmN2ExMGZlNzgxYzNhNjMwYzYxYWU2NmE0ODY2LnBuZw==&sign=yx:VnmFtuBPyzBrSG70neamT35QLU4=&tv=400_400
View all 15 sources

已掌握的信息

  1. Self-Forcing++ 核心信息已核实:通过查阅其ArXiv论文(2510.02283)、GitHub仓库及项目主页,已确认该技术真实存在。其确由字节跳动(ByteDance Seed)与加州大学洛杉矶分校(UCLA)的研究人员联合提出。论文和项目资料均证实,该模型最长可生成4分15秒的视频,与原文报道一致。
  2. 技术演进脉络已厘清:Self-Forcing++是在早前的Self-Forcing项目(由Adobe和德克萨斯大学奥斯汀分校研发,可生成约10秒视频)的代码基础上构建和改进的。这证实了两者间的技术继承与发展关系。
  3. Sora2 现状已查明:根据2025年10月初的多方科技资讯,OpenAI确实发布了Sora2及其配套的社交应用。在其应用内,视频生成时长被限制在10秒左右,其他版本(如API或Pro)可能支持稍长一些的16-20秒。虽然这与原文“5秒打转”的说法有出入,但核心论点——Sora2的生成时长远不及Self-Forcing++——是成立的。

下一步行动计划

  1. 构建最终研究报告:整合所有已核实的信息,撰写一份全面的研究报告,以最终回答用户关于原文真实性的问题。
  2. 报告结构规划
    • 引言:首先对原文的核心观点(字节跳动与UCLA联合发布分钟级视频生成技术,领先于Sora2)给出一个总体上“基本属实”的结论。
    • 核心技术解析 (Self-Forcing++):图文并茂地介绍Self-Forcing++的技术原理、关键创新点(如反向噪声初始化、扩展分布匹配蒸馏等),并阐明其与前代技术Self-Forcing的联系与突破。
    • 行业竞品分析 (Sora2):客观陈述Sora2在当前时间点的技术能力,特别是其公开的视频生成时长限制(10-20秒),并纠正原文中“5秒”这一不精确的表述。
    • 量化对比与评估:通过创建可视化图表(如条形图),直观对比Self-Forcing++与Sora2在视频生成时长上的巨大差异,并结合论文中的性能数据,评估Self-Forcing++在长视频生成领域的领先地位。
    • 结论:总结本次调研结果,对原文的整体准确性进行最终评定,并简要探讨分钟级视频生成技术对AI内容创作行业可能带来的深远影响。
可视化工具

可视化工具

现在我需要进一步可视化Self-Forcing++的技术创新点,以便更全面地解释其如何实现长视频生成。

可视化工具

可视化工具

最后,我需要创建一个图表来展示Self-Forcing++与其前身Self-Forcing的技术演进关系,以及它在长视频生成领域的突破。

可视化工具

可视化工具

现在我已经收集了足够的信息,并创建了多个可视化图表来帮助解释和比较不同的AI视频生成技术。让我提供最终的研究结论。

字节跳动与UCLA联合推出的Self-Forcing++:分钟级AI视频生成技术深度解析

一、核心技术真实性评估

经过全面调研,量子位报道的核心信息基本属实。字节跳动确实与UCLA合作开发了名为Self-Forcing++的技术,该技术能够生成长达4分15秒的高质量AI视频huggingface.co。这项技术于2025年10月初发布,由Justin Cui、Jie Wu、Ming Li等来自字节跳动Seed团队和UCLA的研究人员共同完成qbitai.com

Self-Forcing++确实如报道所述,无需更换模型架构或重新收集长视频数据集,就能生成分钟级长视频,且全程保持高质量github.com。该项目已在GitHub上开源,并提供了详细的技术文档和演示视频qbitai.com

二、AI视频生成技术现状对比

当前主流AI视频生成模型的最大生成时长存在显著差异:

资料来源: GitHub Pagesgithub.comqbitai.com知乎

从图表可以清晰看出,Self-Forcing++的255秒(4分15秒)生成时长远超其他模型。虽然原文中提到"Sora2还在5秒打转"有些夸张,实际上Sora2在应用内可生成10-20秒视频快懂百科,但Self-Forcing++确实实现了质的飞跃,其生成时长约为Sora2的12倍以上。

三、技术演进与创新突破

Self-Forcing++并非凭空出现,而是在Adobe与德克萨斯大学奥斯汀分校于2025年6月提出的Self-Forcing技术基础上发展而来知乎。下面是两者的技术对比:

特性Self-Forcing (2025年6月)Self-Forcing++ (2025年10月)
开发者Adobe + 德克萨斯大学奥斯汀分校字节跳动 + UCLA
最大生成时长10秒255秒 (4分15秒)
核心技术自回归生成过程中使用自生成帧作为条件,而非真实帧基于Self-Forcing构建,新增反向噪声初始化、扩展分布匹配蒸馏、滚动KV缓存训练、组相对策略优化
性能特点实时生成能力(单H100 GPU 17FPS)将视频长度扩展到教师模型能力的20倍以上
技术关系原始技术继承Self-Forcing的代码库并创新

资料来源: github.com知乎qbitai.com

从时间线来看,Self-Forcing++在短短4个月内实现了从10秒到255秒的巨大突破,这在AI视频生成领域具有里程碑意义。

四、技术原理深度解析

Self-Forcing++的核心创新在于其独特的训练方法,通过四项关键技术突破解决了长视频生成中的质量衰减问题:

技术创新点描述作用
反向噪声初始化让学生模型生成远超5秒(实验用100秒)的干净帧序列,再按扩散噪声调度向序列中重新注入噪声建立长序列生成的基础,避免从零开始生成的困难
扩展分布匹配蒸馏在帧序列生成后,从中随机抽取5秒连续窗口,计算学生与教师模型在窗口内的分布差异(KL散度),然后通过最小化该差异完成训练确保生成内容的质量与一致性,即使在超出教师模型能力范围时
滚动KV缓存训练在训练与推理阶段均采用滚动KV缓存,训练时用该缓存生成远超教师监督时长的序列解决长序列记忆丢失问题,维持视频连贯性
组相对策略优化(GRPO)通过计算每一步的重要性权重,结合当前自回归生成的对数概率总和,衡量生成策略的合理性显著改善视频平滑性,减少画面突变异常

这些技术创新使Self-Forcing++能够在生成超长视频时依然保持高质量和连贯性,有效解决了传统AI视频生成模型在长序列生成时面临的"误差累积"问题qbitai.com

五、性能评估与实验结果

Self-Forcing++在短视频和长视频场景下均表现出色:

  1. 短视频场景(5秒):在VBench基准测试中,Self-Forcing++的语义得分(80.37)和总得分(83.11)均超过NOVA、SkyReels-V2、CausVid等模型,仅略低于Wan2.1的总得分(84.67)qbitai.com

  2. 中长视频场景(50秒):视觉稳定性得分达90.94,远超CausVid(40.47)和Self-Forcing(40.12),动态程度是Self-Forcing得分的1.6倍qbitai.com

  3. 超长视频场景(75-100秒):视觉稳定性得分(84.22)为Self-Forcing(32.03)的2.6倍,且framewise质量(60.66)与基准模型相当qbitai.com

研究人员还引入了新的评估指标"视觉稳定性",通过Gemini-2.5-Pro对视频按过曝光、误差积累等维度进行0-100分评分,更精准地衡量长视频生成质量qbitai.com

六、与Sora2的技术对比

Sora2于2025年9月30日发布,虽然在物理真实性和音视频同步方面有所突破今天看啥,但其视频生成时长仍受到严格限制:

  1. Sora2应用内:视频生成限制在10秒以内17173新闻
  2. API版本:据报道可能支持最长90秒视频cursor-ide.com

相比之下,Self-Forcing++不仅能生成更长视频,还解决了长视频生成中的质量衰减问题,这是Sora2等模型尚未攻克的技术难题qbitai.com

七、结论与前景展望

综合评估,量子位的报道基本属实。Self-Forcing++确实由字节跳动与UCLA联合开发,能够生成长达4分15秒的高质量视频,远超当前主流AI视频生成模型的能力。虽然原文中"Sora2还在5秒打转"的表述略有夸张,但Self-Forcing++在长视频生成领域的技术突破是真实且具有重大意义的。

这项技术的出现,为AI电影、长视频内容创作等领域带来了新的可能性。随着技术进一步成熟,我们或许能在不久的将来看到完全由AI生成的短片甚至电影作品qbitai.com

Self-Forcing++的开源也将促进整个AI视频生成领域的发展,让更多研究者和开发者能够基于此技术进行创新和应用探索github.com

Source(59)
GitHub Pages
In this paper, we propose a simple yet effective approach to mitigate quality degradation in long-horizon video generation without requiring supervision from ...
github.com
Both Rolling Forcing and LongLive , as well as ours, are able to generate high-quality videos up to multiple minutes long, which marks a ...
xx.gzshanen.com
尽管由于 Self Forcing 的序列特性会阻碍并行训练,乍看之下似乎在计算上代价高昂,但该研究证明,它可以高效地作为训练后阶段的一种算法来实现,此时模型在该阶段并不需要大量的梯度更新即可收敛。通过采用少量步数的扩散主干网络以及精心设计的梯度截断策略,Self Forcing 算法的效率出乎意料地优于其他并行策略,在相同的实际训练时间内实现了更优的性能。此外,该研究还引入了一种滚动 KV 缓存机制,进一步提升了视频外推的效率。该模型能够在单个 H100 GPU 上以 17 FPS 的帧率实现实时视频生成,延迟低于一秒,同时在生成质量上与近期较慢的双向和自回归视频扩散模型相比具有竞争力或更优。这些进步为真正的交互式视频生成用例 —— 如直播、游戏和世界模拟 —— 打开了大门,在这些场景中,延迟预算以毫秒而非分钟为单位进行衡量。
www.thepaper.cn
论文地址:https://self-forcing.github.io/static/self_forcing.pdf 项目主页:https://self-forcing.github.io/ 这种机制使得模型能够运用整体分布匹配损失函数(holistic distribution-matching losses)对完整的生成视频序列进行监督。通过迫使模型在训练中面对并从其自身的预测错误中学习,Self Forcing 算法能有效减轻暴露偏差并减少误差的累积。 尽管由于 Self Forcing 的序列特性会阻碍并行训练,乍看之下似乎在计算上代价高昂,但该研究证明,它可以高效地作为训练后阶段的一种算法来实现,此时模型在该阶段并不需要大量的梯度更新即可收敛。 通过采用少量步数的扩散主干网络以及精心设计的梯度截断策略,Self Forcing 算法的效率出乎意料地优于其他并行策略,在相同的实际训练时间内实现了更优的性能。此外,该研究还引入了一种滚动 KV 缓存机制,进一步提升了视频外推的效率。 该模型能够在单个 H100 GPU 上以 17 FPS 的帧率实现实时视频生成,延迟低于一秒,同时在生成质量上与近期较慢的双向和自回归视频扩散模型相比具有竞争力或更优。 这些进步为真正的交互式视频生成用例 —— 如直播、游戏和世界模拟 —— 打开了大门,在这些场景中,延迟预算以毫秒而非分钟为单位进行衡量。
搜狐网
算法 2 详细描述了基于滚动 KV 缓存的自回归长视频生成算法。 实验及结果 研究者采用 Wan2.1-T2V-1.3B 模型实现 Self Forcing,这是一个基于流匹配的模型,可以生成时长 5 秒、16 帧、分辨率为 832×480 的视频。 配合 VBench 和用户偏好研究,研究者同步评估了生成视频的视觉质量与语义对齐度。同时,严格测试了 Self Forcing 在实时应用中的效率表现。在单个 NVIDIA H100 GPU 上,研究者综合评估了吞吐量和首帧延迟两项指标,全面衡量实时生成能力。 研究者将采用 Self Forcing 算法的模型与规模相近的开源视频生成模型进行比较,包括两个扩散模型(作为初始化权重的 Wan2.1-1.3B 和以高效著称的 LTXVideo)以及多个自回归模型(Pyramid Flow、NOVA、SkyReels-V2、MAGI-1 和同样基于 Wan-1.3B 初始化的 CausVid)。 如下表 1 所示,研究者提出的...
腾讯网
项目主页:https://self-forcing.github.io/ 这种机制使得模型能够运用整体分布匹配损失函数(holistic distribution-matching losses)对完整的生成视频序列进行监督。通过迫使模型在训练中面对并从其自身的预测错误中学习,Self Forcing 算法能有效减轻暴露偏差并减少误差的累积。 尽管由于 Self Forcing 的序列特性会阻碍并行训练,乍看之下似乎在计算上代价高昂,但该研究证明,它可以高效地作为训练后阶段的一种算法来实现,此时模型在该阶段并不需要大量的梯度更新即可收敛。 通过采用少量步数的扩散主干网络以及精心设计的梯度截断策略,Self Forcing 算法的效率出乎意料地优于其他并行策略,在相同的实际训练时间内实现了更优的性能。此外,该研究还引入了一种滚动 KV 缓存机制,进一步提升了视频外推的效率。 该模型能够在单个 H100 GPU 上以 17 FPS 的帧率实现实时视频生成,延迟低于一秒,同时在生成质量上与近期较慢的双向和自回归视频扩散模型相比具有竞争力或更优。 这些进步为真正的交互式视频生成用例 —— 如直播、游戏和世界模拟 —— 打开了大门,在这些场景中,延迟预算以毫秒而非分钟为单位进行衡量。
themoonlight.io
This page provides the most accurate and concise summary worldwide for the paper titled Self-Forcing++: Towards Minute-Scale High-Quality Video ...
GitHub Pages
Real-Time Video Generation. Our model generates high-quality 480P videos with an initial latency of ~0.8 seconds, after which frames are generated in a ...
huggingface.co
arxiv:2510.02283. Self-Forcing++: Towards Minute-Scale High-Quality Video Generation. Published on Oct 2. · Submitted by cuijiaxing on Oct 3. #1 Paper of ...
huggingface.co
Cho-Jui Hsieh. Abstract. A method is proposed to enhance long-horizon video generation by using sampled segments from self-generated long ...
escholarship.org
Belkin, Cho-Jui Hsieh, Baharan Mirzasoleiman, and Stanley J. Osher for their in- valuable feedback and suggestions throughout my Ph.D ...
scholar.google.com.hk
创建我的个人资料 开放获取的出版物数量 查看全部59 篇文章 0 篇文章 可查看的文章 无法查看的文章 根据资助方的强制性开放获取政策 合著作者 "Cho-Jui Hsieh" () Cho-Jui HsiehUniversity of California, Los Angeles在 cs.ucla.edu 的电子邮件经过验证 Cho-Jui HsiehUniversity of California, Los Angeles在 cs.ucla.edu 的电子邮件经过验证 "Nanyun (Violet) Peng" () Nanyun (Violet) PengAssociate Professor, 的电子邮件经过验证 Liunian Harold LiOpenAI在 cs.ucla.edu 的电子邮件经过验证 "Da Yin" () Da YinPhD Student, UCLA在 cs.ucla.edu 的电子邮件经过验证 Da YinPhD Student, UCLA在 cs.ucla.edu
谷歌
Cho-Jui Hsieh. University of California, Los Angeles. Verified email at cs.ucla.edu - Homepage · Machine LearningOptimization. ArticlesCited by ...
ieeexplore.ieee.org
by S Wu · Cited by 1 — ... Cho-Jui Hsieh (UCLA, Google). Unpaired Image Super-Resolution Using Pseudo ... Yat-sen University), Xiaohui Shen (ByteDance AI Lab), Zhenyu Xie. (School ...
qbitai.com
通过利用教师知识和自生成视频片段指导自回归生成,最长生成视频可达4分15秒,而且高质量、还开源。 话不多说,再看几个视频效果尝尝鲜。 长达3分钟的无人机 ...
cursor-ide.com
Sora 2是OpenAI在2025-09-30发布的最新AI视频生成模型,能够根据文本描述生成高质量视频,并新增了声音生成和自拍融合功能。许多开发者迫切想知道:Sora 2 ...
cursor-ide.com
录制5-10秒自拍视频(正面、侧面、转头); 录制语音样本(朗读指定文本); 系统审核通过后(通常24小时内); 即可在生成视频时选择"使用 ...
快懂百科
Sora 2 1 推出背景 2 发展历程 3 功能和服务 4 相关事件 5 注释 6 参考资料 基 本 信 息 英 文 名 Sora 2[1] ...OpenAI[1] Sora 2,是 OpenAI 推出的一款视频生成模型,也称为“视频生成器”。...Sora 2以独立的应用程序形式推出,其界...
搜狐网
在人工智能的快速发展中,OpenAI于2025年周二推出了其最新的视频生成模型Sora2,标志着视频创作领域的一次重大飞跃。这款模型不仅提升了生成视频的真实感,还伴随着一款独立的社交应用Sora,用户可以通过名为“cameos”(客串)的功能,将自己融入人工智能生成的场景中。这一创新的发布引发了广泛关注,代表了AI技术在视频制作领域的最新进展。Sora2:视频生成的技术突破 OpenAI
今日头条
2025年9月30日,OpenAI推出基于Sora 2的独立短视频应用,这是对TikTok的直接挑战。Sora 2亮点不少。在内容生成上,它要求所有视频由AI生成,这一创新方式或改变用户对短视频的认知。且它允许生成最长10秒的视频,契合当下用户注意力持续时间短的趋势。功能方面,...
17173新闻
OpenAI将推出AI版TikTok,所有短视频由Sora 2生成,支持肖像认证和10秒限制。探索最强AI视频社交应用!
站长之家
OpenAI计划推出名为“AI版TikTok”的社交应用,基于Sora2视频生成模型。用户可滑动浏览竖屏短视频,但内容全由AI生成,不支持上传手机文件。视频时长限制在10秒内,设计理念
bilibili
Sora 2是由OpenAI于2025年9月30日发布的新一代视频生成模型,被称为AI视频领域的“GPT-3.5时刻”。该模型通过整合音视频同步生成技术,首次实现画面与环境音、物体交互声及对话的匹配,并显著提升物理仿真精度,能模拟体操动作、跳水力学等真实世界动态.,视频播放量 124、弹幕量 0、点赞数 4、投硬币枚数 0、收藏人数 1、转发人数 0,视频作者 有云转晴,作者简介 喜欢折腾,云计算,数码,科技,玩转Li...
搜狐网
来源:至顶网 据Wired报道,OpenAI正准备发布一款由即将推出的Sora 2视频模型驱动的独立社交应用。这款应用在外观上"非常类似"TikTok,采用垂直视频流和滑动滚动导航。不过有一个限制:应用将只展示AI生成的内容,用户无法从手机相册上传照片或视频。据报道,OpenAI将限制Sora 2在应用内生成的视频片段长度为10秒或更短。目前还不清楚该模型在应用外的时长限制<...
搜狐网
来源:市场资讯 (来源:IT之家) IT之家 9 月 30 日消息,据《连线》杂志 29 日报道,OpenAI 正计划推出一款独立社交应用,其由即将上线的 Sora 2 视频模型驱动。IT之家从报道中获悉,该应用形式与 TikTok 类似,用户通过滑动浏览竖屏短视频,但所有内容都由 AI 生成,无法从手机相册上传照片或视频。报道指出,OpenAI 会限制 Sora 2 在应用内生成的...
微软
最多可以使用两个图像作为输入(生成的视频将内容插在它们之间)。 最多可以使用一个视频5 秒作为输入。 负责任的人工智能. Sora 具有可靠的安全堆栈,包括内容筛选 ...
知乎
2025年10月1日—— 昨日(当地时间9月30日),OpenAI正式发布新一代AI视频生成模型Sora 2,并同步推出配套的iOS社交应用Sora,标志着AI视频创作进入更逼真、更 ...
infoq.cn
Sora 的第一个版本允许拍摄最长60 秒的视频,但很难在这么长的时间内生成真正令人信服且连续的图像。) 据《连线》杂志报道,目前无法直接上传照片或视频, ...
知乎
... 视频生成模型在实时交互应用中的性能边界。近日,Adobe 联合联合德克萨斯大学奥斯汀分校的研究者,在一项新研究中提出了名为Self Forcing 的新颖算法 ...
AI工具集
Self Forcing 是Adobe Research 与德克萨斯大学奥斯汀分校联合推出的新型自回归视频生成算法,解决传统生成模型在训练与测试时的暴露偏差问题。通过在训练阶段模拟自生成 ...
澎湃新闻
近日,Adobe 联合联合德克萨斯大学奥斯汀分校的研究者,在一项新研究中提出了名为 Self Forcing 的新颖算法,旨在解决自回归视频生成中的暴露偏差问题。该方法受到早期 RNN 时代序列建模技术的启发,通过在训练期间显式地展开自回归生成过程,来弥合训练与测试分布之间的差距。具体而言,每一帧的生成都以先前自生成的帧为条件,而不是依赖于真实的帧。论文标题:Self Forcing...
m.techwalker.com
Adobe Research和德州大学的研究团队提出了一个叫做"自我强迫"(Self Forcing)的全新训练方法,这就像是让孩子在练习写作时,不再依赖完美的范文,而是学会从自己之前写的内容(哪怕有错误)出发,继续创作并不断改进。这种方法不仅能让AI视频生成的质量更加稳定,还能实现真正的实时生成,在单个GPU上达到亚秒级的延迟,为直播、游戏和实时互动等应用打开了全新的可能性。研究团队的创新之处在于,他们彻底改变了AI...
www.baidu09.com
近日,Adobe 联合联合德克萨斯大学奥斯汀分校的研究者,在一项新研究中提出了名为 Self Forcing 的新颖算法,旨在解决自回归视频生成中的暴露偏差问题。该方法受到早期 RNN 时代序列建模技术的启发,通过在训练期间显式地展开自回归生成过程,来弥合训练与测试分布之间的差距。具体而言,每一帧的生成都以先前自生成的帧为条件,而不是依赖于真实的帧。论文标题:Self Forcing...
知乎
... Adobe 和德克萨斯大学奥斯汀分校的《Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion》。Kenji,你对这篇论文的核心 ...
腾讯网
近日,Adobe 联合德克萨斯大学奥斯汀分校的研究者,在一项新研究中提出了名为 Self Forcing 的新颖算法,旨在解决自回归视频生成中的暴露偏差问题。该方法受到早期 RNN 时代序列建模技术的启发,通过在训练期间显式地展开自回归生成过程,来弥合训练与测试分布之间的差距。具体而言,每一帧的生成都以先前自生成的帧为条件,而不是依赖于真实的帧。论文标题:Self Forcing:B...
什么值得买
实时视频生成黑科技,Adobe新研究太强了!单块4090就能搞定,游戏直播渲染门槛要被打破了,未来交互式应用前景无限啊 一块4090搞定实时视频生成!Adobe黑科技来了 Adobe联合德克萨斯大学奥斯汀分校的研究者提出了一种名为Self Forcing的新算法,旨在解决自回归视频生成中的暴露偏差问题。该算法通过在训练期间显式地展开自回归生成过程,...
腾讯网
Adobe Research和德州大学的研究团队提出了一个叫做"自我强迫"(Self Forcing)的全新训练方法,这就像是让孩子在练习写作时,不再依赖完美的范文,而是学会从自己之前写的内容(哪怕有错误)出发,继续创作并不断改进。这种方法不仅能让AI视频生成的质量更加稳定,还能实现真正的实时生成,在单个GPU上达到亚秒级的延迟,为直播、游戏和实时互动等应用打开了全新的可能性。研究团队的创新之处在于,他们彻底改变了AI...
腾讯网
近日,Adobe 联合德克萨斯大学奥斯汀分校的研究者,在一项新研究中提出了名为 Self Forcing 的新颖算法,旨在解决自回归视频生成中的暴露偏差问题。该方法受到早期 RNN 时代序列建模技术的启发,通过在训练期间显式地展开自回归生成过程,来弥合训练与测试分布之间的差距。具体而言,每一帧的生成都以先前自生成的帧为条件,而不是依赖于真实的帧。论文标题:Self Forcing:B...
Hyper.AI
与之前基于真实上下文帧对未来帧进行去噪的方法不同,Self Forcing 通过在训练期间执行带有键值(KV)缓存的自回归 rollout,将每帧的生成条件设定为先前自生成的输出。该策略通过视频级别的整体损失函数实现监督,该损失函数直接评估整个生成序列的质量,而非仅仅依赖于传统的逐帧目标函数。为了确保训练效率,采用了少步扩散模型和随机梯度截断策略,从而有效地平衡了计算成本和性能。进一步引入了一种滚动键值缓存机制,以实现...
至顶网
Adobe Research与德州大学联手开发"自我强迫"训练法,让AI在视频生成时边做边学,彻底解决传统方法中错误会越积越多的问题。这种创新训练方式实现了真正的实时视频生成,在 ...
zhanid.com
该系统已开源完整训练代码、模型权重及ComfyUI插件,支持文生视频、图生视频(需结合VACE模块)两种生成模式,为游戏开发、影视预演、直播互动等实时视频生成 ...
腾讯云
Adobe新研究提出Self Forcing算法,解决自回归视频生成暴露偏差问题,能在H100 GPU实现17 FPS实时视频生成,延迟低于1秒,为直播、游戏等实时交互应用提供 ...
ai-nav.net
Self Forcing是一项由Adobe Research与德克萨斯大学奥斯汀分校联合开发的创新性自回归视频生成算法。该技术通过模拟真实的视频生成过程,在训练阶段就采用自生成的帧作为 ...
aiguide.cc
Self Forcing 是Adobe Research 与德克萨斯大学奥斯汀分校联合推出的一种新型自回归视频生成算法,旨在解决传统生成模型在训练与测试时存在的暴露偏差问题。
中关村在线
2025年10月6日,国庆假期前夕,OpenAI推出了其最新一代视频与音频生成模型Sora2。该模型具备实现此前同类技术难以完成的复杂动作模拟能力,例如奥林匹克级别的运动员动作、桨板上的后空翻等,并能精确还原浮力与物体。
今天看啥
OpenAI发布了Sora 2模型以及Sora iOS社交应用,定位视频生成的“GPT-3.5时刻”。首次实现音视频同步生成,物理真实性大幅提升,支持长达16秒的连贯叙事视频。推出“客串(Cameo)”和“混音(Remix)”功能,用户可将真人录制片段融入AI场景,支持社区二次创作。发布时间为2025年10月1日,首发于美国和加拿大,并逐步放开。API会在未来几周推出,安卓版还在开发中。关键观点总结 关键观点1:
东方财富网
OpenAI在2025年10月2日正式发布的Sora 2模型,堪称AI领域的一次“核爆级”突破。相比初代Sora,新版本不仅支持更长的视频生成时长(最高20秒)、更高分辨率(1080p),更关键的是其对物理规律的精准模拟能力。例如,用户输入“奥运体操动作”或“桨板后空翻”等复杂场景时,Sora 2能自动生成符合力学规律的动态画面,甚至能同步生成对话与音效。这种“世界模拟器”级别的能力...
qbitai.com
通过利用教师知识和自生成视频片段指导自回归生成,最长生成视频可达4分15秒,而且高质量、还开源。 话不多说,再看几个视频效果尝尝鲜。 长达3分钟的无人机 ...
cursor-ide.com
2025年10月3日. Sora 2是OpenAI在2025-09-30发布的最新AI视频生成模型,能够根据文本描述生成高质量视频,并新增了声音生成和自拍融合功能。许多开发者迫切想知道:Sora 2 ...
53ai.com
但是,北京时间10月1号的凌晨,OpenAI又发布了Sora2的更新,用Sam的话来 ... 额度: 免费用户每天最多生成50条视频,时长固定10秒,清晰度360P。
中关村在线
2025年10月1日,OpenAI正式发布Sora 2,这是继前一年推出Sora后在音视频生成领域的全新升级版本。此次更新不仅包含更强大的生成模型,还配套推出了一款名为Sora的社交类应用程序,旨在为用户提供创作与分享视频内容的新方式。根据官方介绍,Sora 2在理解与模拟现实世界物理规律方面取得了显著进展,能够生成更加自然、逼真...
快懂百科
[1]10月1日,OpenAI 发布视频生成模型Sora2,并且推出了Sora2独立应用程序。[3] 推出背景 OpenAI 于2024年12月9日推出Sora模型,尽管该模型发布初期引发广泛关注,但热度随后逐渐减弱。然而,因某科技公司在2025年将其集成至免费视频创作工具中,Sora再度受到业界的关注。[2] 发展历程 2025年9月,OpenAI
站长之家
这款新应用将基于即将推出的 Sora2视频生成模型,允许用户通过滑动浏览竖屏短视频,但所有内容均为 AI 自动生成,用户将无法从手机相册上传任何照片或视频。据悉,这款应用的设计理念与 TikTok 相似,但有一些独特的限制。首先,Sora2在应用内生成的视频时长限制在10秒之内。与之相比,TikTok 最初的视频...
17173新闻
OpenAI将推出AI版TikTok,所有短视频由Sora 2生成,支持肖像认证和10秒限制。探索最强AI视频社交应用!
今日头条
2025年9月30日,OpenAI推出基于Sora 2的独立短视频应用,这是对TikTok的直接挑战。Sora 2亮点不少。在内容生成上,它要求所有视频由AI生成,这一创新方式或改变用户对短视频的认知。且它允许生成最长10秒的视频,契合当下用户注意力持续时间短...
cursor-ide.com
Sora 2于2025年10月1日正式发布,被业界称为"视频生成的GPT-3.5时刻"。相 ... 测试条件:2025年10月4日,使用相同提示词生成10秒720p视频,记录从请求到获取URL ...
知乎
2025年10月1日—— 昨日(当地时间9月30日),OpenAI正式发布新一代AI视频生成模型Sora 2,并同步推出配套的iOS社交应用Sora,标志着AI视频创作进入更逼真、更智能的新阶段!
东方财富网
Sora 2 的核心突破在于其生成视频的物理合理性和真实感达到了新高度。它不再是为了满足指令而生成违背常识的画面,而是能够模拟现实世界的物理规律。例如, ...
澎湃新闻
OpenAI 表示,有了Sora 2,他们直接进入可能是视频领域的GPT-3.5 时刻。Sora 2 能做到一些对于之前的视频生成模型来说极其困难,甚至在某些情况下完全不可能 ...