
我需要分析这个关于AI视频生成技术的新闻报道,了解其核心内容和可信度。
基于用户提供的文章,这是一篇关于字节跳动与UCLA联合开发的名为"Self-Forcing++"的AI视频生成技术的报道。文章声称该技术能生成长达4分15秒的高质量AI视频,远超当前主流技术(如Sora2)的5-10秒限制。
核心技术点包括:
文章提到有论文链接(https://arxiv.org/abs/2510.02283)和项目网站,这增加了可信度。
我需要确认这项技术突破的真实性和影响力。
Search
Self-Forcing++ ByteDance UCLA AI video generation 4 minutes根据搜索结果,我发现关于"Self-Forcing++"的具体信息较少,但有关于"Self-Forcing"的相关研究。我需要澄清用户提到的新闻报道的准确性和相关技术细节。
搜索结果显示,确实存在名为"Self-Forcing"的AI视频生成技术,由Adobe和德克萨斯大学奥斯汀分校共同开发,而非字节跳动和UCLA。该技术主要解决自回归视频生成中的暴露偏差问题,能够生成高质量视频,但目前能力是生成基础5秒视频和外推延展后的10秒视频,而非原文提到的4分15秒。
这与用户分享的新闻中提到的"Self-Forcing++"技术(声称可生成4分15秒视频)存在明显差异。我需要向用户确认一些关键信息,以便更好地理解这篇报道的真实性。
好的,这是为你制定的计划。
由于您没有提供网页内容,我无法进行分析。请提供网页内容,我将根据您的要求分析Self-Forcing++项目的作者、机构和技术细节相关信息。
看来网站链接无法直接访问。我将改变策略,先通过搜索引擎查找关于Self-Forcing++项目的信息。
Search
Self-Forcing++ ByteDance UCLA 4 minute video generation我需要更多关于Self-Forcing++的具体信息,尤其是关于其作者和机构的信息。让我查看一下ArXiv上的论文。
Search
Self-Forcing++ arxiv 2510.02283 ByteDance UCLA让我直接访问论文链接获取更详细的信息。
这篇论文《Self-Forcing++: Towards Minute-Scale High-Quality Video Generation》由Justin Cui等9位研究者于2025年10月2日提交至arXiv。论文探讨了长视频生成面临的挑战,特别是扩展视频长度时质量下降的问题。虽然扩散模型在图像和视频生成领域取得了突破性进展,但其依赖的Transformer架构在长视频生成时计算成本过高。现有的自回归方法通常通过从短时域的双向教师模型中蒸馏知识,但当学生模型超出训练范围时,会出现明显的质量下降。作者提出了一种简单而有效的方法——Self-Forcing++,无需长视频教师监督或重新训练,而是利用教师模型的知识通过从自生成长视频中采样的片段来指导学生模型。该方法能将视频长度扩展到教师模型能力的20倍以上,避免了过度曝光和错误累积等问题。在计算资源充足的情况下,该方法可生成长达4分15秒的视频,相当于基础模型位置嵌入支持的最大跨度的99.9%,比基线模型长50倍以上。实验表明,该方法在保真度和一致性方面显著优于基线方法。
关于Self-Forcing++的作者和所属机构:
论文的作者包括Justin Cui、Jie Wu、Ming Li、Tao Yang、Xiaojie Li、Rui Wang、Andrew Bai、Yuanhao Ban和Cho-Jui Hsieh。从网页内容中无法直接确定这些作者的所属机构,因为网页中没有提供机构信息。
关于技术的主要创新点:
关于能生成多长时间的视频:
论文明确指出,当扩展计算资源时,Self-Forcing++方法能够生成长达4分15秒(即255秒)的视频。这相当于基础模型位置嵌入支持的最大跨度的99.9%,比基线模型长50倍以上。
网页内容中没有包含图片信息。
已掌握的信息
下一步行动计划
论文《Self-Forcing++: Towards Minute-Scale High-Quality Video Generation》提出了一种增强长时间视频生成的方法,通过使用从自生成长视频中采样的片段来指导学生模型,从而在不需要额外监督或重新训练的情况下保持视频质量和一致性。该方法解决了扩展视频长度时常见的质量下降问题,能够将视频长度扩展到教师模型能力的20倍以上。在计算资源充足的情况下,该方法可以生成长达4分15秒的视频,相当于基础模型位置嵌入支持的最大跨度的99.9%,比基线模型长50多倍。实验表明,该方法在保真度和一致性方面显著优于基线方法。论文由Justin Cui、Jie Wu、Ming Li等人撰写,并在项目网站https://self-forcing-plus-plus.github.io/上提供了长视频演示。
从网页内容中可以提取到以下与问题相关的信息:
论文作者信息:
作者所属机构:
网页中显示有ByteDance Seed的标识,表明至少部分作者来自字节跳动。网页上有ByteDance Seed的logo和链接。
关于UCLA的信息:
网页中没有明确提到UCLA,但作者Cho-Jui Hsieh是UCLA的教授(这是基于外部知识,网页本身没有提供这一信息)。
论文的完整引用信息:
网页提供了论文的arXiv ID: 2510.02283
论文标题: Self-Forcing++: Towards Minute-Scale High-Quality Video Generation
发布日期: Oct 2, 2025(提交于Oct 3)
完整的引用信息应为:
Cui, J., Wu, J., Li, M., Yang, T., Li, X., Wang, R., Bai, A., Ban, Y., & Hsieh, C.-J. (2025). Self-Forcing++: Towards Minute-Scale High-Quality Video Generation. arXiv:2510.02283.
网页内容确认了字节跳动(ByteDance)是作者所属机构之一,但没有明确提到UCLA。论文的完整引用信息可以从网页中的标题、作者和arXiv ID等信息中整理出来。
ByteDance-Seed Logo
作者头像 - cuijiaxing
作者头像 - Ming Li
作者头像 - Jie Wu
作者头像 - Rui Wang
我需要更多信息来确认Self-Forcing++与Self-Forcing的关系,以及是否真的有UCLA参与。让我查看Self-Forcing++的项目页面。
我将根据您的要求分析网页内容,探究关于Self-Forcing++项目的信息。
由于网页内容未提供,无法生成摘要。
由于没有提供网页内容,无法提取与Self-Forcing++项目相关的信息。需要网页内容才能分析作者所属机构、是否包括UCLA、与Self-Forcing的关系以及能生成的视频时长等问题。
由于没有提供网页内容,无法识别相关网页链接。
由于没有提供网页内容,无法提取相关图片及其链接信息。
要完成您的请求,我需要实际的网页内容。如果您能提供网页内容,我将能够分析Self-Forcing++项目的作者所属机构、是否包括UCLA、与Self-Forcing的关系以及视频生成时长等信息。
让我尝试直接访问论文的PDF版本,这通常会包含作者的所属机构信息。
Search
Self-Forcing++ PDF ByteDance UCLA Cho-Jui Hsieh我已经找到了一些关于Cho-Jui Hsieh的信息,确认他是UCLA的教授,但我需要更多关于Self-Forcing++项目的具体信息,特别是作者的所属机构和与Self-Forcing的关系。让我尝试查看GitHub仓库。
这个网页是Self-Forcing++项目的GitHub仓库主页,介绍了一种用于生成长时间高质量视频的新方法。Self-Forcing++解决了扩散模型在生成长视频时面临的挑战,通过利用教师知识和自生成视频片段来指导自回归学生模型,无需在长视频数据集上重新训练。该方法保持了时间一致性,避免了错误累积,能够生成长达4分15秒的视频,相当于基础模型位置嵌入支持的最大跨度的99.9%。项目页面展示了主要工作流程,提到了与Rolling Forcing和LongLive等并行工作的比较,这些方法都能生成数分钟长的高质量视频。Self-Forcing++的独特之处在于仅依赖历史KV缓存而不使用sink帧。该项目基于Self-Forcing代码库构建,使用Wan作为基础模型,并采用了DMD和CausVid的关键技术。
关于Self-Forcing++项目的作者所属机构:
根据网页中的引用信息,Self-Forcing++的作者包括Justin Cui、Jie Wu、Ming Li、Tao Yang、Xiaojie Li、Rui Wang、Andrew Bai、Yuanhao Ban和Cho-Jui Hsieh。然而,网页内容中并未直接提及这些作者所属的具体机构。
关于与Self-Forcing的关系:
Self-Forcing++是基于Self-Forcing项目发展而来的改进版本,这点在"Reproduce Our Work"部分明确提到:"Our work can be reproduced based on Self Forcing"。在"Acknowledgement"部分也特别感谢了Self-Forcing作为他们构建的代码库基础。Self-Forcing++在原有基础上进行了改进,使视频生成能力得到了显著提升。
关于能生成多长时间的视频:
网页明确指出Self-Forcing++能够生成长达"4分15秒"(4 minutes 15 seconds)的视频,相当于基础模型位置嵌入支持的最大跨度的99.9%。这一时长在"TDLR"部分被描述为"Multi-Minute Streaming Long Video Generation",表明该方法实现了多分钟级别的流式长视频生成。
Title: Demo first frame
Content: Self-Forcing++项目演示视频的第一帧
Source: Justin Cui等项目作者
Link: https://github.com/justincui03/Self-Forcing-Plus-Plus/raw/main/assets/demo_first_frame.jpg
Title: Main workflow
Content: Self-Forcing++方法的主要工作流程图,展示了双向扩散如何适应自回归生成
Source: Justin Cui等项目作者
Link: https://github.com/justincui03/Self-Forcing-Plus-Plus/raw/main/assets/main_workflow.jpg
已掌握的信息
下一步行动计划
这篇论文介绍了Self-Forcing++,一种用于生成长时间高质量视频的新方法。尽管扩散模型在图像和视频生成领域取得了突破性进展,但基于Transformer架构的模型在生成长视频时面临巨大的计算成本挑战。现有的自回归方法通常通过从短时间双向教师模型中蒸馏知识来生成长视频,但当超出训练范围时,质量会显著下降。
Self-Forcing++提出了一种简单而有效的方法来解决这一问题,无需长视频教师监督或重新训练。其核心思想是利用教师模型的知识,通过从自生成的长视频中抽取片段来指导学生模型。该方法保持了时间一致性,同时将视频长度扩展到教师能力的20倍以上,避免了过度曝光和错误累积等常见问题。
通过扩大计算规模,Self-Forcing++能够生成长达4分15秒的视频,相当于基础模型位置嵌入支持的最大跨度的99.9%,比基线模型长50多倍。实验表明,该方法在保真度和一致性方面大幅优于基线方法。论文还提出了一个新的评估指标"视觉稳定性",用于系统捕捉长视频生成中的质量下降和过度曝光问题。
从网页内容中可以提取出以下与论文作者所属机构相关的信息:
作者及其所属机构明确列出:
机构分布:
论文完整引用信息:
因此,论文的作者确实包括来自字节跳动(ByteDance Seed)和UCLA的研究人员,符合探究问题中的假设。
网页中包含以下与问题相关的链接:
"https://self-forcing-plus-plus.github.io/" - 上下文:Our long-horizon videos demo can be found at https://self-forcing-plus-plus.github.io/.
"arXiv:2510.02283v1 [cs.CV] 2 Oct 2025" - 上下文:论文的arXiv预印本信息
网页中包含一张与问题相关的图片:
图片title: Figure 1
content: 展示了Self-forcing++生成的长达四分钟的视频。包含雷达图突出显示模型的优势,以及折线图显示其在长时间内保持的运动动态。
source: 论文作者(Justin Cui等)
link: 未知(网页中未提供直接图片链接)
图片title: Figure 2
content: 展示了基线方法与Self-Forcing++之间的工作流程对比。说明Self-Forcing++如何通过向后噪声初始化、扩展DMD和滚动KV缓存有效缓解训练-测试差异。
source: 论文作者(Justin Cui等)
link: 未知(网页中未提供直接图片链接)
我现在需要验证关于Sora2和其他AI视频生成模型的现状描述,以便全面评估原文的准确性。
Search
Sora2 OpenAI 5秒视频生成限制 2025现在我需要查询关于Self-Forcing的信息,以明确Self-Forcing++与Self-Forcing的关系。
Search
Self-Forcing Adobe 德克萨斯大学 视频生成现在让我查询一下关于Sora2和其他AI视频生成模型的最新信息,以便更全面地评估原文的准确性。
Search
Sora2 OpenAI 视频生成 时长限制 2025年10月已掌握的信息
下一步行动计划
可视化工具
现在我需要进一步可视化Self-Forcing++的技术创新点,以便更全面地解释其如何实现长视频生成。
可视化工具
最后,我需要创建一个图表来展示Self-Forcing++与其前身Self-Forcing的技术演进关系,以及它在长视频生成领域的突破。
可视化工具
现在我已经收集了足够的信息,并创建了多个可视化图表来帮助解释和比较不同的AI视频生成技术。让我提供最终的研究结论。
经过全面调研,量子位报道的核心信息基本属实。字节跳动确实与UCLA合作开发了名为Self-Forcing++的技术,该技术能够生成长达4分15秒的高质量AI视频huggingface.co。这项技术于2025年10月初发布,由Justin Cui、Jie Wu、Ming Li等来自字节跳动Seed团队和UCLA的研究人员共同完成qbitai.com。
Self-Forcing++确实如报道所述,无需更换模型架构或重新收集长视频数据集,就能生成分钟级长视频,且全程保持高质量github.com。该项目已在GitHub上开源,并提供了详细的技术文档和演示视频qbitai.com。
当前主流AI视频生成模型的最大生成时长存在显著差异:
资料来源: GitHub Pagesgithub.comqbitai.com知乎
从图表可以清晰看出,Self-Forcing++的255秒(4分15秒)生成时长远超其他模型。虽然原文中提到"Sora2还在5秒打转"有些夸张,实际上Sora2在应用内可生成10-20秒视频快懂百科,但Self-Forcing++确实实现了质的飞跃,其生成时长约为Sora2的12倍以上。
Self-Forcing++并非凭空出现,而是在Adobe与德克萨斯大学奥斯汀分校于2025年6月提出的Self-Forcing技术基础上发展而来知乎。下面是两者的技术对比:
| 特性 | Self-Forcing (2025年6月) | Self-Forcing++ (2025年10月) |
|---|---|---|
| 开发者 | Adobe + 德克萨斯大学奥斯汀分校 | 字节跳动 + UCLA |
| 最大生成时长 | 10秒 | 255秒 (4分15秒) |
| 核心技术 | 自回归生成过程中使用自生成帧作为条件,而非真实帧 | 基于Self-Forcing构建,新增反向噪声初始化、扩展分布匹配蒸馏、滚动KV缓存训练、组相对策略优化 |
| 性能特点 | 实时生成能力(单H100 GPU 17FPS) | 将视频长度扩展到教师模型能力的20倍以上 |
| 技术关系 | 原始技术 | 继承Self-Forcing的代码库并创新 |
资料来源: github.com知乎qbitai.com
从时间线来看,Self-Forcing++在短短4个月内实现了从10秒到255秒的巨大突破,这在AI视频生成领域具有里程碑意义。
Self-Forcing++的核心创新在于其独特的训练方法,通过四项关键技术突破解决了长视频生成中的质量衰减问题:
| 技术创新点 | 描述 | 作用 |
|---|---|---|
| 反向噪声初始化 | 让学生模型生成远超5秒(实验用100秒)的干净帧序列,再按扩散噪声调度向序列中重新注入噪声 | 建立长序列生成的基础,避免从零开始生成的困难 |
| 扩展分布匹配蒸馏 | 在帧序列生成后,从中随机抽取5秒连续窗口,计算学生与教师模型在窗口内的分布差异(KL散度),然后通过最小化该差异完成训练 | 确保生成内容的质量与一致性,即使在超出教师模型能力范围时 |
| 滚动KV缓存训练 | 在训练与推理阶段均采用滚动KV缓存,训练时用该缓存生成远超教师监督时长的序列 | 解决长序列记忆丢失问题,维持视频连贯性 |
| 组相对策略优化(GRPO) | 通过计算每一步的重要性权重,结合当前自回归生成的对数概率总和,衡量生成策略的合理性 | 显著改善视频平滑性,减少画面突变异常 |
这些技术创新使Self-Forcing++能够在生成超长视频时依然保持高质量和连贯性,有效解决了传统AI视频生成模型在长序列生成时面临的"误差累积"问题qbitai.com。
Self-Forcing++在短视频和长视频场景下均表现出色:
短视频场景(5秒):在VBench基准测试中,Self-Forcing++的语义得分(80.37)和总得分(83.11)均超过NOVA、SkyReels-V2、CausVid等模型,仅略低于Wan2.1的总得分(84.67)qbitai.com。
中长视频场景(50秒):视觉稳定性得分达90.94,远超CausVid(40.47)和Self-Forcing(40.12),动态程度是Self-Forcing得分的1.6倍qbitai.com。
超长视频场景(75-100秒):视觉稳定性得分(84.22)为Self-Forcing(32.03)的2.6倍,且framewise质量(60.66)与基准模型相当qbitai.com。
研究人员还引入了新的评估指标"视觉稳定性",通过Gemini-2.5-Pro对视频按过曝光、误差积累等维度进行0-100分评分,更精准地衡量长视频生成质量qbitai.com。
Sora2于2025年9月30日发布,虽然在物理真实性和音视频同步方面有所突破今天看啥,但其视频生成时长仍受到严格限制:
相比之下,Self-Forcing++不仅能生成更长视频,还解决了长视频生成中的质量衰减问题,这是Sora2等模型尚未攻克的技术难题qbitai.com。
综合评估,量子位的报道基本属实。Self-Forcing++确实由字节跳动与UCLA联合开发,能够生成长达4分15秒的高质量视频,远超当前主流AI视频生成模型的能力。虽然原文中"Sora2还在5秒打转"的表述略有夸张,但Self-Forcing++在长视频生成领域的技术突破是真实且具有重大意义的。
这项技术的出现,为AI电影、长视频内容创作等领域带来了新的可能性。随着技术进一步成熟,我们或许能在不久的将来看到完全由AI生成的短片甚至电影作品qbitai.com。
Self-Forcing++的开源也将促进整个AI视频生成领域的发展,让更多研究者和开发者能够基于此技术进行创新和应用探索github.com。