我将为您调研国产计算卡在FP8精度下的进展情况。为了更好地满足您的需求,我想先了解几个关键点:
您是否特别关注某些国产GPU厂商(如摩尔线程、沐曦等)在FP8精度方面的进展,还是希望获得整体市场概况?
您更关注FP8在训练还是推理场景的应用进展?或者两者都需要?
您是否需要了解国产计算卡与国际产品(如NVIDIA)在FP8支持方面的对比分析?
好的,收到您的调研任务。
为了系统性地完成“国产计算卡在FP8精度下的进展”这一研究,我为您制定了以下分步骤的总体计划。该计划旨在确保最终产出的研究报告结构清晰、内容详实、论证有力,并包含必要的图文对比。
此阶段将聚焦于您指定的几家核心国产厂商,对每一家进行独立且深入的分析。
核心信息来源参考:
首先,让我们开始搜索相关信息,了解FP8精度的基本概念和国产计算卡在这方面的进展。
Search
FP8精度 8位浮点数 AI训练 推理 优势感谢您提供的调研任务。我将系统性地研究国产计算卡在FP8精度下的进展情况。首先,让我了解更多关于FP8精度的基本信息,以及国产计算卡厂商在这方面的进展。
Search
国产计算卡 FP8精度 摩尔线程 沐曦 寒武纪 华为昇腾 昆仑芯现在我需要更具体地了解国产计算卡对FP8精度的支持情况,特别是摩尔线程的最新进展,因为从之前的搜索结果中看到摩尔线程已经宣布支持原生FP8。
Search
摩尔线程 FP8 原生支持 Torch-MUSA v2.0.0现在我需要了解更多关于华为昇腾、寒武纪等其他国产计算卡对FP8精度的支持情况。
Search
华为昇腾 寒武纪 昆仑芯 FP8精度 支持情况已掌握的信息
FP8技术与国际标杆:已明确FP8技术的两种主流格式(E4M3, E5M2)及其在AI计算中相较于FP16/BF16的核心优势(降低显存占用、提升计算吞吐量)。行业领导者NVIDIA通过其Hopper架构和Transformer Engine等软硬件生态,为FP8提供了原生的硬件支持和成熟的软件优化方案,构成了清晰的国际参照基准。
摩尔线程的突破:摩尔线程是国产厂商中在FP8支持上进展最明确的。其于2025年5月发布的Torch-MUSA v2.0.0,依托其MUSA Compute Capability 3.1新计算架构,已实现对FP8数据类型的原生硬件支持。这标志着国产GPU在硬件层面的一大突破,并通过开源其PyTorch扩展库来积极构建软件生态。
华为昇腾的策略:华为昇腾目前并未提供FP8的原生硬件支持。其策略是通过软件层面创新,推出了名为“OptiQuant”的量化框架。该框架旨在通过高性能的INT8量化方案,在昇腾硬件上实现与FP8相当的模型推理精度,这是一种通过软件优化来适配FP8生态的路径。
其他国产厂商的动态:沐曦、寒武纪、昆仑芯等厂商正积极适配以FP8为特色的DeepSeek等大模型,但目前公开信息未能明确其是否具备FP8原生硬件支持。其对FP8的适配更可能依赖于类似华为的软件量化方案或通用的第三方推理引擎。
“赤兔”引擎的关键作用:清华大学研发的“赤兔”推理引擎被提及,它似乎扮演着一个关键的第三方软件角色,旨在帮助缺乏原生FP8硬件的国产芯片也能高效运行FP8模型,是构建国产算力生态的重要一环。
下一步行动计划
之前的行动计划已成功勾勒出市场格局,并识别出不同厂商的技术路径。下一步将延续该计划,深入挖掘细节并进行横向对比。
明确模糊地带: 针对沐曦、寒武纪、昆仑芯这三家厂商,需进一步深度调研,以最终确认其对FP8的支持是硬件原生还是软件模拟/量化。这将是区分各家技术路线和成熟度的关键。
专题研究“赤兔”引擎: 对“赤兔”推理引擎进行专项研究,探明其技术原理(如何实现对不同国产硬件的FP8“无损”支持)、已适配的国产芯片列表、以及其在实际应用中的性能表现。
搜寻量化性能数据: 寻找并整理关于各国产计算卡在运行大模型(特别是DeepSeek)时的实际性能评测数据。重点关注在FP8或其等效精度(如华为的INT8量化方案)下的推理速度(FPS)、延迟、以及能效比等关键指标。
构建综合对比框架: 基于以上信息,着手构建报告的核心图表——《国产计算卡FP8支持现状综合对比表》。该表将以NVIDIA为基准,从“硬件原生支持”、“软件生态路径”、“已公布性能数据”、“代表性应用案例”等维度,对摩尔线程、华为昇腾、沐曦、寒武纪、昆仑芯等厂商进行系统性、可视化的横向对比分析。
接下来,让我搜索更多关于"赤兔引擎"的信息,以及沐曦、寒武纪和昆仑芯对FP8的支持情况。
Search
清华大学 赤兔引擎 FP8 国产芯片 适配现在让我搜索沐曦、寒武纪和昆仑芯对FP8的支持情况,以获取更具体的信息。
Search
沐曦 寒武纪 昆仑芯 FP8精度 支持情况 最新进展让我继续搜索更多关于昆仑芯对FP8支持的信息。
Search
昆仑芯 FP8 支持 百度 昆仑芯3 最新进展现在我需要查找更多关于寒武纪对FP8支持的信息。
Search
寒武纪 FP8精度 支持情况 思元590 MLU370已掌握的信息
技术路径分化明确:国产计算卡在FP8精度支持上已呈现出两种清晰的技术路径。第一种是以摩尔线程为代表的**“硬件原生支持”路径,其新一代MUSA架构(Compute Capability 3.1)已在物理层面集成了FP8计算单元,并通过其开源的Torch-MUSA v2.0.0软件栈提供支持。第二种是以华为昇腾为代表的“软件优化适配”**路径,其通过创新的“OptiQuant”量化框架,在现有硬件上以高性能INT8量化技术来模拟和达到FP8级别的推理精度。
主流厂商现状基本清晰:除摩尔线程和华为外,其他主要厂商如沐曦、寒武纪、昆仑芯,从其现有产品(如沐曦曦思N100、寒武纪MLU370系列)的公开规格看,均未明确提供FP8原生硬件支持。它们目前主要通过积极适配DeepSeek等FP8模型,依赖软件层面的解决方案来追赶生态。其中,寒武纪的下一代芯片“思元590”有非官方信息称其支持FP8,但这与官方产品文档存在矛盾,是目前的一个信息模糊点。
第三方软件生态作用关键:由清华大学团队联合研发并开源的**“赤兔(Chitu)”推理引擎**扮演着至关重要的角色。它通过底层算子和编译优化,使缺乏原生FP8硬件的国产芯片(以及英伟达旧款GPU)能够“无损”、高效地运行FP8模型,无需进行模型格式转换。这为大多数走“软件适配”路线的国产厂商提供了一条快速融入FP8生态的捷径,是构建自主算力生态的关键一环。
下一步行动计划
之前的行动计划已成功勾勒出市场格局和各厂商的技术路线。下一步将延续该计划,聚焦于信息的整合、深化与报告产出。
解决关键信息模糊点:针对寒武纪“思元590”芯片是否原生支持FP8这一矛盾信息,进行最终的考证。这将是判断其技术代际的关键。
搜集与整理性能数据:系统性地搜集和整理各厂商在FP8或其等效精度(如华为的OptiQuant INT8)下运行大模型(特别是DeepSeek)的公开性能评测数据。重点关注推理速度(tokens/s)、延迟、能效比等关键指标,以便进行量化对比。
构建报告核心框架与可视化图表:基于已掌握的信息,开始搭建研究报告的主体结构,并着手设计核心的可视化图表,尤其是**《国产计算卡FP8支持路径与能力综合对比表》**。此表将以NVIDIA为基准,从“硬件支持”、“软件路径”、“生态方案”、“性能表现”等维度,对所有目标厂商进行直观的横向对比。
撰写专题分析与总结:完成对“赤兔”引擎作为生态赋能者的专题分析,并在此基础上,撰写报告的最终总结与展望部分。总结国产计算卡在FP8领域的整体态势、核心挑战(如硬件原生支持的普及度、软件生态的成熟度),并对未来发展趋势(如硬件迭代方向、软件生态整合)做出预判。
现在,我将整合所有收集到的信息,为您提供一份全面的研究报告。
本报告系统性地调研了国产计算卡在FP8精度下的最新进展。随着大模型时代的到来,FP8精度因其在保持模型精度的同时显著降低计算资源需求的优势,已成为AI计算的重要发展方向。报告从FP8技术原理、国际标杆分析、国产厂商进展、技术路径对比以及生态建设五个维度,全面剖析了国产计算卡在FP8领域的现状与挑战。研究发现,国产计算卡在FP8支持上已形成"硬件原生支持"与"软件优化适配"两条技术路线,其中摩尔线程率先实现了硬件层面的原生支持,而华为昇腾等厂商则通过创新的软件方案实现了等效支持。"赤兔"等第三方推理引擎的出现,为国产芯片生态提供了重要支撑。尽管与国际领先水平仍存在差距,但国产计算卡在FP8领域的快速进展展现了强劲的发展势头。
FP8(8位浮点数)是一种低精度数值表示方法,在AI计算领域具有重要意义。FP8采用两种主要表示方式:E4M3(4位指数和3位尾数)和E5M2(5位指数和2位尾数)developer.nvidia.com。在表示范围内,E4M3更精准,而E5M2有更宽的动态范围developer.nvidia.com。
与传统的FP16(16位浮点数)和FP32(32位浮点数)相比,FP8显著减少了存储需求,提高了计算吞吐能力developer.nvidia.com。FP8的核心优势包括:
性能提升:FP8数据宽度更小,减少显存占用,降低通信带宽要求,提高GPU内存读写的吞吐效率。在相同硬件条件下,支持FP8的Tensor Core可以在相同时间内进行更多次的浮点运算,加快训练和推理速度developer.nvidia.com。
模型优化:FP8的使用促使模型在训练和推理过程中进行量化,有助于模型的优化和压缩,进一步降低部署成本developer.nvidia.com。
与INT8相比的优势:相较于INT8,FP8在LLM的训练和推理中更有优势。因为INT8在数值空间是均匀分布的,而FP8有更宽的动态范围,更能精准捕获LLM中参数的数值分布developer.nvidia.com。
FP8技术在大模型训练和推理中的应用价值日益凸显:
训练效率提升:新一代GPU如NVIDIA Ada Lovelace、Hopper架构配备了支持FP8数据精度的Tensor Core,相比之前的FP16或BF16数据类型,FP8的Tensor Core可提供两倍的TFlops算力雪球。
降低内存占用:FP8数据类型占用的比特数比16比特或32比特更少,针对内存占用较大的操作,可以显著降低内存消耗雪球。
训推一致性:FP8不仅适用于模型训练,同样可用于推理加速。相对于传统的INT8推理方法,使用FP8进行模型的训练和推理,可以保持训练和推理阶段模型性能及数据算法的一致性,带来更好的精度保持,避免了使用INT8进行额外的精度校正雪球。
NVIDIA作为AI芯片领域的领导者,在FP8技术上的布局为行业树立了标杆:
硬件支持:NVIDIA的Hopper架构和Ada Lovelace架构GPU都支持Transformer Engine进行FP8的训练和推理developer.nvidia.com。具体支持FP8的设备包括H100、A800、H20以及基于Ada Lovelace架构的4090等CSDN技术社区。
软件生态:NVIDIA提供了Transformer Engine作为专门为加速Transformer模型训练和推理而打造的软件库,应用混合的FP8和FP16/BF16精度格式developer.nvidia.com。此外,TensorRT-LLM等推理优化方案也支持FP8,大幅提升了LLM的训练和推理性能developer.nvidia.com。
NVIDIA的FP8实现在性能上表现出色:
训练加速:FP8可大幅加速Transformer训练,同时保持准确性developer.nvidia.com。
推理提速:FP8可大幅提升大型语言模型推理的速度,性能提升高达Ampere架构的30倍developer.nvidia.com。
能效比优化:通过使用8位浮点算术,相对于float-16算术,能量效率可以提高多达4倍,相对于float-32算术可以提高多达16倍CSDN技术社区。
摩尔线程在国产计算卡厂商中率先实现了对FP8的原生硬件支持:
硬件支持:2025年5月,摩尔线程发布了Torch-MUSA v2.0.0版本,基于MUSA Compute Capability 3.1计算架构,率先在国产GPU上实现了对FP8数据类型的完整支持网易。摩尔线程的全功能GPU原生支持FP8计算,为Torch-MUSA v2.0.0实现FP8矩阵乘法和分布式通信优化提供了坚实基础搜狐网。
性能优势:依托底层架构优势,Torch-MUSA v2.0.0能够充分发挥FP8的计算效能,显著提升大语言模型训练和推理的效率网易。与同类旗舰产品相比,在训练速度上提升了30%,而内存利用率则降低了25%搜狐网。
软件生态:摩尔线程的Torch-MUSA v2.0.0不仅支持原生FP8数据类型,还引入了多项创新功能,包括虚拟内存管理支持、MUSA Graph支持以及torch.compile的Triton后端支持网易。这些功能进一步提升了深度学习任务的执行效率,特别适用于FSDP、DeepSpeed和Megatron-LM等主流大模型训练框架网易。
华为昇腾采取了不同于摩尔线程的技术路径,通过软件优化来支持FP8模型:
软件适配方案:华为昇腾推出了高性能保精度量化方案"OptiQuant",通过层间自动混精、自动混合校准、离群值抑制、可学习的截断和SSZW参数量化算法等技术,实现了INT8量化模式与FP8的模型推理精度持平观察者。
量化框架创新:OptiQuant框架支持Int2/4/8和FP8/HiFloat8等数据类型,支持业界的Qserve,HQQ,LUT等量化方法,并提出了可学习截断和量化参数优化等算法,进一步减少了量化误差观察者。
实际性能表现:基于Atlas 800I A2服务器的精度测试实验结果显示,对于DeepSeek-V3-0324模型,W8A8C16和W4A8C16均采用Per-channel量化,实现了推理精度与FP8-GPU持平观察者。
沐曦作为国产GPU厂商,也在积极适配FP8模型:
硬件基础:沐曦的曦思N100是一款面向云端数据中心应用的AI推理GPU加速卡,内置异构的GPGPU通用处理器核心"MXN100",同时集成了HBM2E高带宽内存,单卡的INT8整数算力达160TOPS,FP16浮点算力则达80TFLOPS腾讯。
FP8模型适配:沐曦已确认DeepSeek-V3全精度满血版(671B)可以成功运行在沐曦训推一体GPU上今日头条。通过与DeepSeek的适配,沐曦验证了自身芯片在AI领域的能力infoobs.com。
软件生态:沐曦自主研发的MXMACA软件栈与硬件架构紧密耦合,支持多种主流框架的网络模型,支持主流计算机视觉处理和多媒体处理框架腾讯。
寒武纪作为国内AI芯片的重要参与者,在FP8支持方面也有所布局:
现有产品能力:寒武纪的MLU370系列产品,包括MLU370-S4/S8、MLU370-X4和MLU370-X8,支持FP32、FP16、BF16、INT16、INT8、INT4等多种计算精度寒武纪电子发烧友,但目前官方产品规格中尚未明确列出对FP8的支持。
思元590的潜力:有报道指出寒武纪即将推出的思元590芯片可能支持FP8低精度计算微博,但官方尚未确认这一信息。
DeepSeek适配:寒武纪思元590芯片已完成DeepSeek框架适配,算力密度提升40%微博,这表明寒武纪在适配支持FP8的模型方面已有进展。
昆仑芯作为百度旗下的AI芯片公司,在FP8支持方面的信息相对有限:
硬件进展:百度智能云已成功点亮昆仑芯三代万卡集群,这是国内首个正式点亮的自研万卡集群中国科技网。昆仑芯三代P800万卡集群在硬件扩展性方面实现了重大突破搜狐网,但关于其是否原生支持FP8的信息尚不明确。
DeepSeek适配:昆仑芯与其他国产AI芯片厂商一样,也在积极适配DeepSeek模型新浪财经,这表明其在FP8相关技术上有所布局。
清华大学高性能计算研究所翟季冬教授团队与清华系科创企业清程极智联合开发的"赤兔"(Chitu)推理引擎,为国产芯片支持FP8提供了重要支撑:
核心突破:赤兔引擎首次实现了在非英伟达Hopper架构GPU及各类国产芯片上原生运行FP8精度模型tsinghua.edu.cn。传统技术方案需将FP8模型提前转换为FP16或BF16格式才能运行,而赤兔通过硬件适配优化,无需提前转换模型,即可实现"无痛""无损"支持FP8数据类型tsinghua.edu.cn。
性能表现:在A800集群的测试中,赤兔引擎部署DeepSeek-R1-671B满血版时,相比部分国外开源框架,在GPU使用量减少50%的情况下,推理速度仍有3.15倍提速凤凰网。
技术原理:赤兔引擎通过底层技术革新,首次实现了非H卡设备(包括英伟达Hopper架构之前的GPU卡及各类国产卡)对原生FP8模型的高效部署,摆脱对特定硬件的依赖凤凰网。
赤兔引擎为国产芯片生态提供了重要赋能:
多元算力适配:赤兔引擎不仅支持英伟达全系列GPU,还针对国产芯片深度优化,未来将陆续开源适配版本凤凰网。
全场景可伸缩:赤兔引擎目标建立覆盖从纯CPU到大规模集群的全场景大模型部署需求,适配英伟达多款GPU及多款国产芯片科学网—新闻。
生态建设加速:赤兔团队与多家国产芯片制造商展开了紧密合作,开通了代码贡献通道,进一步缩短了硬件适配的周期搜狐网。开源不仅是技术的共享,更是为国产芯片"抢时间",帮助国产芯片迅速适应国际节奏,缩小与国外先进芯片之间的技术差距搜狐网。
国产计算卡在FP8支持上形成了两条明显的技术路线:
硬件原生支持路线:以摩尔线程为代表,通过在硬件层面集成FP8计算单元,实现对FP8的原生支持。这种路线的优势在于性能更高、效率更好,但需要硬件升级,开发周期较长。
软件优化适配路线:以华为昇腾为代表,通过软件层面的优化(如OptiQuant框架),在现有硬件上实现与FP8相当的性能。这种路线的优势在于可以快速适配现有硬件,但在极限性能上可能不如原生支持。
下表对比了两种技术路线的主要特点:
特性 | 硬件原生支持路线 | 软件优化适配路线 |
---|---|---|
代表厂商 | 摩尔线程 | 华为昇腾 |
技术实现 | 硬件层面集成FP8计算单元 | 软件层面的量化优化框架 |
性能优势 | 理论性能更高,效率更好 | 在特定场景下可接近FP8性能 |
开发周期 | 较长,需要硬件升级 | 较短,可在现有硬件上实现 |
适配灵活性 | 相对较低,依赖硬件支持 | 较高,可通过软件更新适配 |
未来潜力 | 随硬件迭代持续提升 | 受限于基础硬件能力 |
第三方生态,特别是"赤兔"推理引擎,在国产计算卡FP8支持中扮演着重要的桥接作用:
技术赋能:赤兔引擎通过底层技术革新,使缺乏原生FP8硬件支持的国产芯片也能高效运行FP8模型,为国产芯片生态提供了重要支撑。
降低门槛:赤兔引擎降低了企业部署AI模型的门槛和成本,使更多企业能够利用国产芯片部署先进的AI模型。
生态建设:赤兔引擎的开源为业界提供了国产开源新选择,加速了"国产大模型 + 国产引擎 + 国产芯片"的完整技术闭环形成搜狐网。
国产计算卡在FP8支持上仍面临一些挑战:
硬件原生支持不足:除摩尔线程外,大多数国产计算卡厂商尚未在硬件层面实现对FP8的原生支持,这限制了其在FP8模型训练和推理上的性能表现。
软件生态不完善:与NVIDIA的CUDA生态相比,国产计算卡的软件生态仍不够成熟,开发者工具、算法库等支持不足,影响了FP8在国产芯片上的应用效果。
技术迭代压力:随着AI技术的快速发展,FP8可能只是一个过渡阶段,未来可能出现更低精度(如FP4)的计算格式,国产厂商需要持续跟进技术迭代。
尽管面临挑战,国产计算卡在FP8支持上仍有广阔的发展前景:
硬件升级加速:随着摩尔线程成功实现FP8原生支持,其他国产计算卡厂商也将加速硬件升级,在新一代产品中实现对FP8的原生支持。
软件优化深化:华为昇腾等厂商将继续深化软件优化路线,通过更先进的量化算法和优化技术,进一步提升FP8模型在国产芯片上的运行效率。
生态协同发展:"赤兔"等第三方推理引擎的出现,为国产芯片生态提供了重要支撑,未来将有更多类似的工具和平台出现,促进国产计算卡生态的协同发展。
应用场景拓展:随着FP8在国产计算卡上的支持不断完善,其应用场景将从云端推理扩展到边缘计算、移动设备等更广泛的领域,为国产计算卡带来更多市场机会。
技术路径分化明确:国产计算卡在FP8支持上已形成"硬件原生支持"与"软件优化适配"两条技术路线,各有优势。
摩尔线程领先一步:摩尔线程率先实现了对FP8的原生硬件支持,在国产计算卡中处于领先地位。
华为软件创新显著:华为昇腾通过OptiQuant等创新软件方案,实现了INT8量化模式与FP8模型推理精度持平,展现了强大的软件优化能力。
第三方生态关键:"赤兔"等第三方推理引擎为国产芯片生态提供了重要支撑,是构建自主算力生态的关键一环。
整体进展迅速:尽管与国际领先水平相比仍有差距,但国产计算卡在FP8支持上的进展迅速,展现了强劲的发展势头。
硬件升级加速:随着AI大模型的普及,更多国产计算卡厂商将在新一代产品中实现对FP8的原生支持,硬件升级将加速推进。
软硬协同深化:软件优化与硬件升级将协同发展,共同提升国产计算卡在FP8模型上的性能表现。
生态建设完善:国产计算卡的软件生态将不断完善,开发者工具、算法库等支持将更加丰富,促进FP8在国产芯片上的应用。
应用场景拓展:FP8在国产计算卡上的应用将从云端推理扩展到边缘计算、移动设备等更广泛的领域,为国产计算卡带来更多市场机会。
国际竞争加剧:随着国产计算卡在FP8支持上的进展,其与国际领先厂商的竞争将更加激烈,但也将促进技术创新和产业升级。
资料来源: 网易观察者tsinghua.edu.cn
资料来源: 腾讯腾讯中国科技网今日头条tsinghua.edu.cntsinghua.edu.cn网易观察者
NVIDIA. "FP8:前沿精度与性能的新篇章". NVIDIA Developer Blog, 2024-03-19.
雪球. "如何使用 FP8 加速大模型训练". 雪球, 2024-12-26.
CSDN技术社区. "FP8 Formats For Deep Learning——FP8 深度学习格式". CSDN, 2025-01-22.
网易. "国产GPU突破!摩尔线程发布Torch-MUSA v2.0.0:FP8原生支持". 网易, 2025-05-09.
搜狐网. "摩尔线程发布Torch-MUSA v2.0.0:首个支持FP8的国产深度学习库". 搜狐网, 2025-05-09.
清华大学. "我国自研推理引擎开源首次支持国产卡原生运行FP8模型". 清华大学官网, 2025-03-17.
清华大学. "国产大模型推理引擎"赤兔"开源". 清华大学官网, 2025-03-19.
凤凰网. "又一清华团队出手!助力国产芯片突破FP8模型及DeepSeek部署成本与效率难题". 凤凰网, 2025-03-14.
观察者. "华为昇腾推出高性能保精度量化方案,更好适配DeepSeek". 观察者网, 2025-05-25.
CSDN技术社区. "fp8部署deepseek". CSDN, 2025-02-10.