阶跃星辰多模态大模型技术方案

2025/08/05·StepFun can make mistakes, check important info.

1-项目建设方案V3.0 电子印.pdf

帮我根据文章内容形成一篇总体技术设计方案

为了更好地帮您根据"1-项目建设方案V3.0+电子印.pdf"文件内容形成总体技术设计方案，我需要了解以下信息：

您希望技术设计方案的重点关注哪些方面？(例如：系统架构、功能模块、技术路线、实施步骤等)
技术设计方案的目标读者是谁？(例如：技术团队、管理层、客户方等)
您期望的技术设计方案篇幅大约是多少？(例如：简要概述、中等详细度、全面详尽等)

系统架构、功能模块、技术路线、实施步骤，管理层，全面详尽

好的，收到您的任务。

为了根据您提供的《1-项目建设方案V3.0+电子印.pdf》文件，为您撰写一份全面详尽、逻辑清晰、且适合管理层审阅的总体技术设计方案，我将遵循以下分步研究计划。该计划旨在系统性地解析、构建并呈现方案内容。

Research plan

第一阶段：项目需求与目标解析

此阶段的核心是深度理解原始建设方案，确保技术设计与项目初衷完全对齐。

核心内容提取：系统性地研读您提供的PDF文件，精准提炼项目的背景、核心目标、业务需求、关键约束条件（如预算、周期）以及预期的业务价值。
关键指标识别：明确项目中定义的关键性能指标（KPIs），例如用户容量、并发处理能力、响应时间、数据安全标准等，这些将作为技术选型和架构设计的核心依据。

第二阶段：总体技术架构设计

此阶段将构建系统的宏观蓝图，确保其稳健性、可扩展性和可维护性。

架构模式选择：基于第一阶段解析的需求，选择最合适的系统架构模式（如分层架构、微服务架构、事件驱动架构等）。
架构图表绘制：创建一份清晰的系统架构图。该图表将直观展示系统的主要组成部分，包括用户界面层、业务逻辑层、数据访问层、数据库以及与外部系统的接口，并清晰标示各组件间的交互关系和数据流向。

第三阶段：核心功能模块拆解

此阶段将宏观架构细化为具体的功能单元，明确每个单元的职责。

功能模块识别：根据原始方案中的业务流程描述，识别并列出所有核心的功能模块（如用户管理、订单处理、数据分析、权限控制等）。
功能规格说明：为每个功能模块撰写详细的规格说明，阐述其主要功能、输入、输出以及与其它模块的依赖关系。可以构建功能结构分解图，使模块关系一目了然。

第四阶段：技术路线与选型

此阶段将为项目选择具体的技术实现方案，确保技术的先进性与适用性。

技术栈定义：根据架构设计和功能需求，为前端、后端、数据库、缓存、消息队列等关键环节确定具体的技术栈。
技术选型论证：对所选技术进行可行性与优势分析，说明其为何能满足本项目的性能、安全及未来发展需求。此步骤可能需要参考外部信息以进行对比分析。
信息源参考：
- 官方技术文档：查询相关技术（如编程语言、框架、数据库）的官方网站，获取最权威的技术特性和最佳实践。
- 行业研究报告：参考权威技术研究机构（如 Gartner, Forrester）发布的最新技术趋势报告，确保技术选择的前瞻性。
- 知名技术社区与博客：在专业技术社区（如 InfoQ, Stack Overflow）和顶级技术专家博客中，查找相关技术的应用案例和性能评测。

第五阶段：实施与部署规划

此阶段将制定一份可执行的项目落地路线图。

项目阶段划分：将整个项目开发过程划分为若干个逻辑阶段，如需求分析、设计、开发、测试、上线和运维。
关键里程碑设定：为每个阶段设定明确的交付成果和时间节点，形成项目实施的关键路径。
部署策略规划：设计系统的部署架构，包括服务器配置、网络环境、数据备份与灾难恢复方案，并规划持续集成/持续部署（CI/CD）的流程。
可视化时间线：创建项目实施的甘特图或路线图，以可视化的方式呈现任务排期、依赖关系和关键里程碑。

第六阶段：报告撰写与整合

此阶段将所有研究成果整合成一份结构完整、图文并茂的最终报告。

内容整合：将前述所有阶段的分析和设计成果，按照系统架构、功能模块、技术路线、实施步骤的逻辑顺序进行组织和撰写。
图表嵌入：将第二、三、五阶段制作的架构图、功能图和实施路线图等可视化图表嵌入报告，增强报告的可读性。
评审与定稿：通篇审阅报告，确保语言精练、逻辑严谨、结论明确，使其完全符合管理层的阅读习惯和决策需求，最终形成终版总体技术设计方案。

开始研究

Deep Research

首先，让我使用Python来读取PDF文件内容：

执行代码

python

文件存在: /tmp/1-项目建设方案V3.0+电子印.pdf
PDF文件共有 47 页

文件内容样本 (前3页):

--- 第 1 页 ---

阶跃星辰 -通用多模态图文生成理解
一体化大模型的研发和应用
（上海经信委）
项目名称：通用多模态图文生成理解一体化大模型的研发和应用
依托单位：上海阶跃星辰智能科技有限公司
项目负责人：朱亦博
2023年9 填报日期：月

--- 第 2 页 ---
一、项目摘要
（一）项目名称
（二）法人概况

企业基本情况
企业简介
（三）主要研究内容
（四）项目周期
（五）总投资及建设规模
（六）建设地点
（七）拟申请政府支持事项
（八）项目建设条件落实情况
二、项目背景与意义
（一）国内外预训练语言模型项目的建设情况
（二）项目采用技术的先进性
（三）项目对产业发展的作用与影响
三、研究内容与预期目标
（一）项目主要研究内容
基础模型、算力与系统
1.1. 大规模智算集群建设
1.2. 训练与推理系统
1.3. 中文基础模型
通用多模态一体化大模型
2.1. 多模态理解
2.2. 多模态生成
2.3. 语音理解生成
模型能力拓展
3.1. 超分辨率（ SR）与风格迁移（ ST）
3.2. 多模态向量检索
3.3. 视频生成

--- 第 3 页 ---
4. 数据收集和清洗
4.1. 图文对
4.2. 语音
4.3. 图文混排
4.4. 海量数据清洗平台
5. 模型应用
（二）项目拟解决的关键技术问题

基础模型、算力与系统
1.1. 万卡规模高速网络技术
1.2. 集群调度与监控技术
1.3. 高硬件利用率的分布式大模型训练框架技术
1.4. 高性能大模型推理技术
1.5. 万亿参数规模的中文基础模型训练技术
通用多模态一体化大模型
2.1. 使用统一框架进行多元图像理解
2.2. 使用成对数据与混排数据构建图文联合分布
2.3. 在图文大语言模型基础上融合更多模态
模型能力拓展
3.1. 外挂超分
3.2. 超大规模的实时多模态数据检索
3.3. 长文本多条件长视频生成
数据收集和清洗
4.1. 多来源数据爬取、分类与清洗算法
4.2. 多模态混排数据 OCR提取算法
（三）项目预期目标
四、建设方案
（一）基础模型、算力与系统
大规模智算集群建设
训练与推理系统...

现在我已经看到了PDF文件的前几页内容。为了更全面地了解整个文档，我需要继续读取更多页面的内容，特别是关于技术设计方案的详细部分。

执行代码

python

以下为截断后的前5000字执行结果
尝试提取目录结构:
二、项目背景与意义
三、研究内容与预期目标
四、建设方案
五、申报单位和团队情况
六、投资估算及资金筹措
七、项目实施进度与管理
八、项目盈利运营模式及经济社会效益
十、其他附件
一、项目摘要

关键章节摘要:

--- 项目背景相关内容 ---

[页面 2]
一、项目摘要
（一）项目名称
（二）法人概况

企业基本情况
企业简介
（三）主要研究内容
（四）项目周期
（五）总投资及建设规模
（六）建设地点
（七）拟申请政府支持事项
（八）项目建设条件落实情况
二、项目背景与意义
（一）国内外预训练语言模型项目的建设情况
（二）项目采用技术的先进性
（三）项目对产业发展的作用与影响
三、研究内容与预期目标
（一）项目主要研究内容
基础模型、算力与系统
1.1. 大规模智算集群建设
1.2. 训练与推理系统
1.3. 中文基础模型
通用多模态一体化大模型
2.1. 多模态理解
2.2. 多模态生成
2.3. 语音理解生成
模型能力拓展
3.1. 超分辨率（ SR）与风格迁移（ ST）
3.2. 多模态向量检索
3.3. 视频生成

[页面 7]
（八）项目建设条件落实情况

公司总部位于徐汇区西岸人工智能中心 30-31层，办公区域面积近 4000平。
在松江区书...

--- 研究内容相关内容 ---

[页面 2]
一、项目摘要
（一）项目名称
（二）法人概况

企业基本情况
企业简介
（三）主要研究内容
（四）项目周期
（五）总投资及建设规模
（六）建设地点
（七）拟申请政府支持事项
（八）项目建设条件落实情况
二、项目背景与意义
（一）国内外预训练语言模型项目的建设情况
（二）项目采用技术的先进性
（三）项目对产业发展的作用与影响
三、研究内容与预期目标
（一）项目主要研究内容
基础模型、算力与系统
1.1. 大规模智算集群建设
1.2. 训练与推理系统
1.3. 中文基础模型
通用多模态一体化大模型
2.1. 多模态理解
2.2. 多模态生成
2.3. 语音理解生成
模型能力拓展
3.1. 超分辨率（ SR）与风格迁移（ ST）
3.2. 多模态向量检索
3.3. 视频生成

[页面 6]
（三）主要研究内容

text

--- 建设方案相关内容 ---

[页面 3]
4. 数据收集和清洗
4.1. 图文对
4.2. 语音
4.3. 图文混排
4.4. 海量数据清洗平台
5. 模型应用
（二）项目拟解决的关键技术问题

基础模型、算力与系统
1.1. 万卡规模高速网络技术
1.2. 集群调度与监控技术
1.3. 高硬件利用率的分布式大模型训练框架技术
1.4. 高性能大模型推理技术
1.5. 万亿参数规模的中文基础模型训练技术
通用多模态一体化大模型
2.1. 使用统一框架进行多元图像理解
2.2. 使用成对数据与混排数据构建图文联合分布
2.3. 在图文大语言模型基础上融合更多模态
模型能力拓展
3.1. 外挂超分
3.2. 超大规模的实时多模态数据检索
3.3. 长文本多条件长视频生成
数据收集和清洗
4.1. 多来源数据爬取、分类与清洗算法
4.2. 多模态混排数据 OCR提取算法
（三）项目预期目标
四、建设方案
（一）基础模型、算力与系统
大规模智算集群建设
2....

未找到技术路线相关内容

--- 实施计划相关内容 ---

[页面 44]
项目组在立项时向项目管理办公室申报预算及实施计划，按照公司流程完成审批。
项目款项专款专用，由项目负责人统一管理，项目管理办公室监督。该款项专款专用
于项目的研发、技术攻关，并按照项目建设的进度、质量以及企业自有款项到位情况
分期投入。设备采购由项目负责人汇总需求提出，由采购部按照相关规定统一负责采
购。
2.进度管理
由项目负责人协调制定统一的项目进度计划，各子项目的设计方案、实施计划上
报备案，每周上报一次项目进度报告。项目管理办公室每月定期举行一次项目进度会
议，并不定期进行现场项目进度检查，及时发现问题，协调项目的顺利进行。
3.质量管理
全面加强对项目系统从设计、研发、平台搭建的全程监控，建立严格的技术档案，
实行版本和编号管理，同时，制定项目实施规范和标准，必要时可聘请国内外专家参
加质量检查。

八、项目盈利运营模式及经济社会效益
（一）项目盈利运营模式
该项目以通用多模态图文生成理解一体化大模型为核心，旨在与金融、出版、
医疗等多个领域的实际场景和需求相结合，以实现双重战略目标。一方面，我们...

提取更多页面内容:

--- 第 4 页 ---
3. 万亿参数语言模型
（二）通用多模态一体化大模型
（三）多模态数据收集和清洗

中文文本数据的收集和清洗
中文图文对的收集和清洗
中文图文混排数据的收集和清洗
中文音频数据的收集和清洗
数据存储和计算平台
（四）大模型应用验证
金融投研助手应用
多模态大众知识科普应用
五、申报单位和团队情况
（一）申报单位基本概况
（二）高科技人才优势
项目负责人简介
项目核心人员简介
六、投资估算及资金筹措
（一）项目总投资估算及投资明细
（二）项目资金筹划及落实情况
七、项目实施进度与管理
（一）项目周期及实施进度安排
（二）项目期管理模式
1.资金管理
2.进度管理
3.质量管理
八、项目盈利运营模式及经济社会效益
（一）项目盈利运营模式
（二）经济效益
（三）社会效益

--- 第 5 页 ---
九、风险分析
（一）技术风险
（二）市场风险
（三）资金风险
（四）人员风险
十、其他附件

一、项目摘要
（一）项目名称
通用多模态图文生成理解一体化大模型的研发和应用
（二）法人概况

企业基本情况
（1）企业名称：上海阶跃星辰智能科技有限公司
（2）企业性质：有限责任公司（自然人投资或控股）
（3）法人代表：姜大昕
（4）成立时间： 2023年4月6日
（5）注册资本： 2000万元
（6）所属行业：软件与信息技术服务业
（7）研究领域：人工智能大模型研发和应用
（8）企业规模：中小企业
企业简介
阶跃星辰是一家定位于 AIGC 大模型基础通用模型研发和应用的企业。企业以实现
AGI为目标和愿景，致力于研发下一代视觉、听觉、文字、代码统一多模态大模型，
以通用 AI造福社会。我们的业务方向是基于自研的 AI通用基础大模型，打造新一代
ToC的互联网信息获取工具产品和内容生成社区。

--- 第 6 页 ---
（三）主要研究内容

text

音频在生成和理解上的鸿沟，用一个大模型统一图像生成、图像理解、文字生成、文
字理解、音频生成、音频理解六大多模态 AI的基础问题，实现模型性能的本质提升。
传统的多模态模型主要依赖图文、图音、音文配对数据进行训练，普遍存在数据收集自然语言大模型因其在复杂问题推理、人类意图理解和日常对话、外部工具调用等
能力上的涌现，在国内外引起广泛的关注，催生了大量的落地应用。然而，现阶段的
自然语言大模型只能理解和生成文字，无法同时处理图像、音频等生活中其他主要的
信号形式，应用潜力受到极大的限制。
困难、数据量难以扩增、配对数据一致性差、难以兼顾生成和理解等问题。
本项目另辟蹊径，拟采用原创的图文音交错式数据训练技术进行预训练，数据相对
廉价易得，便于扩增，对于挖掘图文音深层次的联系意义重大。所研制的大模型拟在
效率助手、精准医疗、创意设计、虚拟社交等领域推广应用落地。
（四）项目周期
2023Äê6ÔÂ1ÈÕ- 2025Äê5ÔÂ31...

--- 第 7 页 ---
（八）项目建设条件落实情况

公司总部位于徐汇区西岸人工智能中心 30-31层，办公区域面积近 4000平。
在松江区书海路松江大数据计算中心设有自建服务器机房，目前已经完成 180Ì¨8¿¨
A800µÄ×Ô½¨¼¯Èº½¨Éè 。
二、项目背景与意义
最近一年，随着自然语言大模型在国内外产业界的广泛铺开，下一代大模型技术 —
—多模态大模型 ——已然成为下一轮产研角逐的新热点。从学术的角度，人类感知外
界环境的 90%的信息以视觉模态形式输入，因此为了达到通用人工智能（ AGI）的目
标，必须将视觉和自然语言进行联合建模，构建统一的多模态模型。而从产业的角度，
以图像、视频、语音等为代表的多模态输入可以极大拓展大模型的能力边界，推动大
模型在效率工具、精准医疗、创意设计等高价值领域的应用潜力。
目前大模型领域的头部公司如 OpenAI已在 GPT-4中初步集成了多模态理解功能，
并计划在下一版模型中引入对视频理解和视觉生成的全面支持。国内发展自己的多模
态大模型的需求十分迫切。
目前，国产大模型如文心一言、紫光太初、通义千...

--- 第 8 页 ---
Flamingo 2022.4 Google 80 √
Kosmos 2022.6 Microsoft 1.6 √
Stable
Diffusion 2022.8 Stability AI 1 √
ControlNet 2023.2 Stanford 1.5 √
GPT-4 2023.3 OpenAI 1600 √
LLaVA 2023.4 Microsoft 13 √
SDXL 2023.4 Stability AI 10 √
Bard 2023.7 Google 未公开 √
通义千问 2023.8 阿里 7 √
面壁露卡 2023.8 面壁智能 100+ √
其中，获益于远超同行的参数量（社区普遍认为 GPT-4为8个200B参数模型组
成的混合专家模型）， GPT-4在图像理解能力上一骑绝尘。目前，国内唯一千亿以上参
数量的多模态大模型只有面壁露卡，但其性能与 GPT-4相比有巨大的鸿沟。此外，图
像理解和图像生成，长久以来都沿着两条路线发展，这样割裂的现状极大限制了...

--- 第 9 页 ---
最后，多模态大模型的训练也依赖强大的基础设施。此多模态大模型的训练需要
成千上万块 GPU长期高效稳定的运行，背后所依托的大规模分布式训练技术，目前是
学术界和工业界关注的重点，也是通向通用人工智能必备的技术积累。本项目将通过
此次大模型的训练，从训练效率和训练稳定性两个角度持续打磨分布式训练框架，相
信随着数据的积累和训练框架的持续打磨，我们会离通用人工智能越来越近。
（三）项目对产业发展的作用与影响
研发自主可控的通用多模态图文生成理解一体化大模型，对于我国的人工智能基
础建设和赋能产业发展具有重要的现实和战略

我需要继续获取更多的文档内容，特别是关于技术设计方案的详细部分，以便能够全面了解项目的技术路线和实施计划。

执行代码

python

以下为截断后的前5000字执行结果

--- 第 10 页 ---
广阔的发展前景，这也将对整个产业产生深远的影响。我们期待看到这一项目的成功
推动中国人工智能领域的蓬勃发展，为未来创造更多机会和可能性。
三、研究内容与预期目标
（一）项目主要研究内容
本项目旨在建立一个集文本、语音、图像理解和生成一体化的模型。所研发模型
以自然语言大模型为底座，通过自回归算法在大量图文混排、音文混排、图文音混排
等数据上进行训练，建模图文、音文、图文音的联合分布，进而使所研发模型能够在
给定任意一个或多个模态时，均能建模相应的后验分布，以此打通图像、文字、音频
在生成和理解上的鸿沟，用一个模型统一三大模态，实现模型性能的本质提升。现实
应用中，当用户输入的任一或多个模态的指令时，所研发模型均能完成相应的理解或
生成任务。

为了实现总目标，需要在三个层面构建全面的研究体系和路线图 ——基础层、算
法层与应用层。在基础层，我们需要为多模态大模型的训练提供本质的支持，包括大
规模智算集群的建设与基础语言模型的训练，多模态数据的采集、处理与回流。在算
法层，我们将从图文、音文、图文音等方面探索模型的实现手段与能力边界。在应用
层，我们将探索真实应用所需的模型能力拓展与功能性插件，以及在教育、金融、数
字人等垂类领域的模型应用。

我们将从以下五个方面开展项目研究：

--- 第 11 页 ---

基础模型、算力与系统
相比于传统的深度学习模型，大语言模型在训练流程和模型大小方面存在显著差
异。大语言模型的训练通常包括预训练和微调等多个阶段，需要大量的文本数据和超
大规模的算力支持。预训练阶段采用自回归方式训练一个超大规模语言模型，然后在
微调后应用于各种自然语言处理任务，如阅读理解、长对话问答、机器翻译、文本摘
要、文本生成和角色扮演等。
大语言模型的工程实现具有很高的难度，需要构建强大的算力支持和一套大规模
的深度学习训练平台。由于大语言模型需要处理大量的文本数据，并且模型本身也非
常庞大，因此对计算资源的需求非常高。为了满足这些要求，我们需要拥有强大的计
算集群和高效的分布式计算框架，以便能够有效地训练和应用大语言模型。
此外，在大语言模型的基础上，我们还需要添加视觉和声音模态，以实现更全面
的多模态处理能力。这将进一步增加对算力的需求，因为视觉和声音数据通常比文本
数据更复杂且需要更多的计算资源。因此，我们需要进一步提升计算能力，以满足多
模态大语言模型的训练和应用需求。
除了模型训练本身，训练数据的清洗与预处理工作也需要大量的计算资源和存储
资源。这部分资源虽然主要依赖传统 CPU服务器，但由于数据量巨大，要传给 GPU
服务器会消耗大量的带宽。因此这些 CPU服务器也需要配套地部署在大规模智算集群
内。这个问题到了视觉与声音数据会变得更加突出，因为它们比文本数据所占空间更
大，预处理需要的计算量也显著更大。
总之，大语言模型及多模态通用一体化大模型作为一种前沿的人工智能技术，具
有广泛的应用前景。然而，其实现也面临着巨大的挑战，尤其是在算力供应方面。为
了推动大模型的发展和应用，我们需要加大对相关技术和基础设施的研究与建设投入，
以提供足够的计算资源来支持其训练和应用。

--- 第 12 页 ---
1.1. 大规模智算集群建设
本项目的目标是研究并训练出国内自主可控的通用多模态图文生成理解一体化大
模型，旨在具备强大的语言处理和图像处理能力，能够理解和生成复杂的图文内容。
其最终参数量将远超过 GPT-3 （1750亿参数），至少达到 GPT-4（万亿参数）级别。
这将使模型在处理复杂多模态任务时具备更大的灵活性和准确性。
然而，本项目面临的首要问题是解决算力供应问题。训练如此大规模的模型需要
巨大的计算资源，而这对于当前的计算设备来说是一个巨大的挑战。可以预见，大规
模智算集群将是实现这一目标的关键。智算集群作为重大科技基础设施，体现了一个
国家或地区的自主创新能力和综合竞争力，是科技创新体系建设的关键一环。
为了满足大模型训练的需求，智算集群不仅需要具备巨大的算力总量，还需要这
些算力高度集中并使用超高速互联网络连接。然而，这样的智算集群在国内非常稀缺。
一些企业或机构虽然拥有不少算力，但其密度远远达不到要求。因此，为了实现这一
目标，我们需要加大对智算集群的研究和建设力度，以提供足够的计算资源来支持大
模型的训练和应用。
在本项目，我们将研究建设以英伟达 H800为典型的万张 AI加速计算卡的超大规
模智算集群，并以超高速的 RDMA网络连接它们。大规模集群不仅仅是服务器硬件的
堆砌，更重要的是有先进的管理和调度系统对集群进行管理。我们已规划了完整的软
件系统来将集群资源整合使用，并进行了大量的研究与开发工作。目前已可支持 3000
以上 GPU进行稳定的大规模模型预训练。未来我们还会继续研究加强这方面的工作以
达到万卡目标 ——万卡规模对高速网络互联，以及集群调度监控都提出了更高的要求。

通过解决算力供应问题并成功训练出国内自主可控的通用多模态图文生成理解一
体化大模型，我们有望在人工智能领域取得重大突破，推动相关技术的发展和应用。
这将为各行各业带来深远的影响，同时也将提升我国在人工智能领域的国际竞争力，
--- 第 13 页 ---
为未来的科技创新提供有力支持。

1.2. 训练与推理系统
在拥有了算力资源并可调度后，如何让计算硬件高效率地进行大模型所需的训练
和推理，就成为了重要的研究课题。我们的目标是设计并实现世界一流的、超大规模、
高可靠、高性能的分布式大模型预训练系统，以及探索大模型 -native的极致服务架构，
让通用多模态图文生成理解一体化大模型能力普惠到用户。
首先，分布式大模型预训练系统是我们的关注重点之一。除了常见的 3D并行技术
（数据并行、张量并行、流水线并行）外，我们还增加了先进的虚拟流水线、序列并
行等技巧，并且针对我们的模型结构以及集群拓扑进行定制化的精细调度。通过这些
优化措施，我们能够节约显存，使得同样的 GPU数量可以放下尺寸更大的模型，计算
更多的数据；同时进行计算与通信的重叠，将它们并行起来。如今我们的硬件算力利
用率（ MFU）已处于国内一流水平，但要达到世界领先还有不少研究和开发工作要做。
其次，大模型推理也对系统提出了比小模型更高的要求。在大模型推理中，张量
并行是必需的，但与训练不同的是它还有其他的优化技巧，如 Paged Attention 、持续
批处理化、投机解码等。我们已在我们的推理框架上整合了一部分上述高级技巧，取
得了显著的性能收益，但仍然存在较大的优化空间。同时，我们自己具备比较强的
CUDA算子研发能力，当我们的模型有开源比较少见的算子时，我们也会进行自主
CUDA算子开发，以确保推理计算能够高效地利用好硬件。
综上所述，设计并实现世界一流的、超大规模、高可靠、高性能的分布式大模型
预训练系统和探索大模型 -native的极致服务架构是我们的两大目标。通过不断的研究
和开发工作，我们将持续提升硬件算力利用率和优化大模型推理性能，为用户提供更
高效、普惠的通用多模态图文生成理解一体化大模型能力。

1.3. 中文基础模型
构建通用多模态一体化的大模型的前提是具有以文本为核心的具有世界知识和基
本逻辑能力的基础模型。一方面，目前市面上的千亿参数以上的模型都以英文为主，
缺乏中文核心能力，因此没有办法适应国内市场的需求；另一方面，为了构建足够强
大的中文基础模型，需要有千亿甚至万亿级别（如 GPT-4）以上的参数量和海量训练
数据，无法通过开源渠道获得。因此，训练纯自主开发的大型中文基础模型，是项目
前期的核心研究内容之一。
涉及的研究问题具体包括：模型结构设计、训练数据构建、核心能力评测系统、
超大规模参数模型实现。在实用性层面，也涉及基础模型的指令微调、基于人类反馈
的强化学习等算法问题。

--- 第 14 页 ---
2. 通用多模态一体化大模型
以GPT为代表的大语言模型已具有很强的文本理解和生产能力，而人类在交流过
程中除了使用文本，更多地是使用图像或语音，因此要求模型对这些模态具有理解和
生成能力的需求油然而生。本项目所研发的多模态大模型旨在构建一个集图像、文本
的理解和生成为一体的模型，该模型以自然语言大模型为桥梁，打通图像和文本在生
成和理解上的鸿沟。因此所研发模型的关键技术在于如何让让大语言模型在保持文本
理解和生成的同时，还能够理解和生成其他模态的内容。下面将从多模态理解、多模
态生成两个方面介绍多模态大模型。
2.1. 多模态理解
在日常的生活中，人类感知外界环境的 90%的信息以视觉模态形式输入，让模型
像理解文本一样理解图像在现实应用中具有重要的应用价值，如在和模型聊天中理解
用户输入图片的意图、帮助用户进行图表分析、对用户的摄影作品进行评价和指导、
对学习化妆的用户给予一定的化妆建议等。
上文所提的中文基础模型对文本已经有一个较好的理解能力，进一步赋予其图像
理解能力可以从两个方面开展：一方面是直接提升图像编码空间和大语言模型输入空
间的一致性，使得在赋予多模态模型图像理解能力的时候尽可能不破坏模型的语言能
力；另一方面是利用多模态模型构建图像和文本的联合分布，使得模型能够基于图像
和文本输入进行后验分布。在图像编码和文本编码空间对齐的问题上，以 CLIP为代表
的方法通过在大量的图文对上训练获得了一个和文本编码比较一致的图像编码器，因
此所研发模型可以利用 CLIP模型进行图像编码提取，再通过一个连接器将 CLIP 模型
提取的图像编码进一步对齐到多模态大模型的输入空间。在建模图像和文本的联合分
布问题上，得益于互联网上大量容易获取的图文混合的网页，所研发模型可以通过自
回归算法在大量的图文混合数据上训练来赋予模型具有建模图像和文本联合分布的能
力，从而使得模型能够基于输入的图像或文本预测出合理的后验分布。
在本项目中，我们希望模型在大量的图文混合的数据上训练后能够对输入的自然
图片提供合理的描述、对用户提供的图标类图像给出一定的分析。
2.2. 多模态生成
除了理解用户输入的图像，用户常常有创造新的图片的需求，如简单地根据用户
输入的文本生成相应的图片，为一个故事在指定的位置上插入图片，辅助生成 PPT等。
此外由 Richard Feynman 的名言， “What I cannot create, I do not understand” ，可以
看出模型的创造能力是和模型的理解能力强相关的。因此赋予模型图像创造能力具有
重要的意义。
体现模型的创造能力需要一个从多模态大模型的输出空间到图像空间的图像解码
器。得益于现有生成模型的迅速发展，以 Stable Diffusion 模型为代表的扩散模型具有

--- 第 15 页 ---
较强的由文本控制信号到图片的解码能力，本研究采用 Stable Diffusion 模型作为图像
解码器，把多模态大模型预测的控制图像生成信号解码成相应的图像。为了更好地把
多模态大模型的输出信号对齐到 Stable Diffusion 模型的输入空间，同时减少图像生成
对多模态大模型语言能力的影响，所研究模型利用一个多模态大模型的输出空间到
Stable Diffusion 模型输入空间的连接器，来完成两个空间之间的映射。为了保证所研
发模型能够正确判断出所预测的内容是否为图片控制信号，图片内容的起始位置和终
止位置被插入不同的特殊字符，这样当多模态大模型预测出相应的特殊字符时，所研
发模型即能判断出图片生成控制信号的起始或者终止。在训练过程中可以通过对多模
态大模型预测的内容进行监督，或者直接对解码出来的内容进行监督对模型进行优化。
由于多模态大模型具有长序

我需要继续获取更多的文档内容，特别是关于技术设计方案的详细部分。让我继续读取后面的页面内容。

执行代码

python

以下为截断后的前5000字执行结果

--- 第 20 页 ---
节内容将分块列举关键技术问题。

基础模型、算力与系统
1.1. 万卡规模高速网络技术
在我们搭建的智算集群内，为了确保大规模预训练性能达到要求，必须用高速网
络连接 GPU服务器，达到平均每张 GPU至少 200Gbps 带宽接入到网络中，且必须
使用 RDMA网络以及 GPU -direct RDMA 技术确保接入带宽可以被充分利用。在
RDMA技术选型上，本项目采用的并非英伟达垄断 IB技术，而是更为通用，国产化程
度更高的 RoCE技术。对于万卡集群，我们需要搭建至少万口 200Gbps 接入的大型网
络。
这样规模的高速网络，我们至少需要研究解决如下技术问题：
网络交换机设备和网卡选型：在构建大规模智算集群时，选择合适的网络交换机
设备和网卡是至关重要的。我们需要考虑的因素包括带宽、延迟、功耗以及成本等。
最合适的型号将取决于我们的特定需求和预算限制。
网络拓扑设计：为了满足大模型训练的要求，我们需要根据通信流量的特点来设
计网络拓扑。这意味着加强通信流量大的链路带宽，以牺牲不太需要的链路带宽为代
价。这需要仔细权衡和优化，以确保整个网络的高效性和可靠性。
RoCE网络协议与参数调优：由于我们选择了 RoCE技术作为 RDMA实现方式，
我们需要进行相应的协议和参数调优。这包括适配万卡万口规模集群、优化消息传递
机制以及调整缓冲区大小等。这些调优将有助于提高网络的性能和稳定性。
交换机配置与路由协议管理：在大规模智算集群中，交换机配置与路由协议管理
是一个复杂的任务。为了应对规模化的挑战，我们可以采用 SDN（软件定义网络）技
术。SDN允许我们以编程方式管理网络，从而实现自动化的配置和路由决策。这将提
高网络的管理效率和可扩展性。
完善的监控报警能力：为了确保智算集群的正常运行和性能优化，我们需要建立
完善的监控报警系统。这包括实时监测网卡、交换机及线缆的状态，及时发现潜在的
问题；同时对网络性能进行实时分析，找到流量拥塞的位置并采取相应的措施。这些
监控功能将帮助我们保持智算集群的高效性和可靠性。

1.2. 集群调度与监控技术
在当前的大模型研究中， GPU集群已经成为了执行大规模并行计算任务的关键设
备。如何有效地进行 GPU集群调度，以提高计算性能和集群利用率，成为了当前研究
的核心内容需要深入研究了这一问题，开发一种基于智能调度策略的调度方案，来提
升任务执行效率，同时也提高集群利用率。

--- 第 21 页 ---
首先，我们立足于任务需求和复杂性来合理分配任务到 GPU节点上。需要研究一
种将任务特性与可用 GPU性能相匹配的智能调度算法。多样化的任务特性和 GPU节
点的计算能力需要一个智能的算法进行精准的匹配，以提供最合适的计算资源，满足
大规模的数据计算需求。我们的算法需要考虑每个任务的需求和每个 GPU节点的实际
计算能力，以确保合理有效地进行任务分配。
基于任务特性与 GPU硬件特性进行任务分配的研究结果，我们需要进一步探讨如
何根据应用需求去调度任务到不同的 GPU型号上。这里我们提出了一种应用驱动的映
射策略。针对于 GPU硬件在各种型号间的计算能力，内存大小，以及能耗等方面的差
异，我们将这些差异反应在任务调度上，去根据应用需求进行最合理的任务调度。这
种考虑应用需求和满足 GPU硬件特性的调度策略，可以保证每个任务都能分配到最合
适任务执行的 GPU上，从而实现任务性能的最大化。
在大规模分布式任务的调度策略上，我们需要考虑如下几个方面：

任务划分和分配 - 分布式训练任务需要被有效地划分到各个 GPU节点上。对于深
度学习训练任务，通常会采用数据并行化或模型并行化的策略。数据并行化是指把一
个大的训练数据集拆分成多个小的数据子集，并分配给不同的 GPU进行处理。模型并
行化是指在多个 GPU之间分割模型，每个 GPU只处理模型的一部分。
通信开销 - GPU集群内部的通信开销也是调度策略需要考虑的因素。例如， GPU
之间的通信开销可能会对深度学习训练任务的效率产生重大影响。因此，调度策略需
要尽量降低通信开销，例如优化数据传输路径，减少不必要的数据交换等。
均衡负载 - 在GPU集群上进行分布式训练任务时，需要确保各个 GPU的工作负
载相对均衡。如果某个 GPU的工作负载过高，可能会导致整个系统的效率降低。因此，
调度策略需要考虑如何合理地分配任务，以确保各个 GPU的工作负载相对平衡。
动态调度 - GPU集群中可能会有不同性能的 GPU节点，因此调度策略需要能够
动态地调整任务的分配，以充分利用各个 GPU的性能。例如，对于计算密集型的任务，
应该优先调度到性能更强的 GPU上。
容错和恢复 - 调度策略也需要提供容错和恢复机制，以应对 GPU集群中可能出现
的硬件故障或网络故障。例如，如果某个 GPU出现故障，调度策略应该能够将其上的
任务快速转移到其他可用的 GPU上，并尽量减少任务的中断时间。
训练任务和推理任务有不同的特性，因此在 GPU集群上的调度方案也会有所不同。以
下是一些基础的调度考虑因素：
训练任务
在划分训练任务并配对到 GPU节点上时，需要考虑数据的规模和模型的复杂性。
例如，对于大规模的训练数据或复杂的深度学习模型，可能需要在多个 GPU上进行并
行训练。
需要考虑 GPU的计算性能和内存大小。一些复杂的训练任务可能需要高性能的

--- 第 22 页 ---
GPU和大量的 GPU内存。
3. 内部通信开销对训练效率有很大的影响，优化网络通信能降低训练时延。
推理任务

推理任务往往对时延有更高的要求，所以在任务调度时，需要尽量确保任务能够
快速地开始执行并完成。
推理任务通常在单个 GPU上执行，因为推理任务更关注于延迟而不是吞吐量。但
是，如果有大量并发的推理请求，则可能需要利用到 GPU集群。
针对推理任务，优先考虑低功耗、高效率的 GPU，因为推理任务可以在这类 GPU
上获得较好的性能。
综合上述，一种可能的调度方案是，对于训练任务，实施基于任务复杂性、数据
规模和 GPU 性能的智能分配策略；对于推理任务，根据请求的并发性和时延要求，动
态地在 GPU 集群中分配任务。同时，也可以考虑在不忙的时候，让空闲的 GPU 执行
一部分推理任务，从而更高效地利用资源。在这个过程中，持续优化网络通信和内存
使用，来确保集群性能的最优化。
对GPU集群进行有效监控，可以遵循以下几个步骤：
搭建监控系统：可以采用一些开源工具，如 Prometheus 和Grafana，来搭建集群
监控系统。这些工具能够实时监控集群状态，并生成易于理解的图表。或者，也可以
选择商业化的监控工具，如 NVIDIA DCGM (Data Center GPU Manager) 。
实时监控：通过监控系统，我们可以实时了解到每个节点的状况，如 CPU、内存、
网络以及 GPU的使用情况。这是保证训练和推理任务顺利进行的基础。
监控重要指标：例如： GPU使用率、 GPU内存使用率、功耗等。监控这些重要指
标，可以帮助我们了解集群的运行状况，并能够及时发现和解决问题。
设定预警：对关键指标设定预警值，一旦超出警戒值立刻触发报警，例如： GPU
温度过高，内存使用过大等等， GPU各种故障等，以便及时处理，保证训练和推理任
务的稳定运行。
GPU故障预测：通过在长期运行过程中收集的 GPU运行数据，我们可以使用机
器学习方法对 GPU可能发生的故障进行预测，提前处理。
性能优化：通过监控系统会发现可能存在的性能瓶颈，例如 CPU或主机内存使用
过多，网络延迟大，进一步优化这些部分，可以提高 GPU集群的效率。
总的来说，要对 GPU集群进行有效监控，需要有一套完备的监控系统，实时监控
重要指标，并设置合理的预警阈值。同时，基于收集的数据对性能进行优化，也是一
个重要的环节。
1.3. 高硬件利用率的分布式大模型训练框架技术

--- 第 23 页 ---
近年来，随着深度学习领域的不断发展和创新，出现了一系列引领潮流的架构，
如Transformer 和Mixture of Experts 等，这些架构不仅提升了模型的性能，还使得深
度学习模型的规模轻松突破上万亿参数的壁垒。这一突破意味着我们能够更准确地捕
捉和理解复杂的数据模式，从而在自然语言处理、计算机视觉、强化学习等领域取得
了显著的进展。然而，这种参数规模的增加也伴随着一个显而易见的挑战：传统的单
机单卡训练模式已经无法满足超大规模模型的训练需求。在过去，独立的 GPU足以训
练相对较小的模型，但对于那些拥有数十亿甚至数万亿参数的模型而言，这种单机训
练模式变得不切实际。这种情况下，单个设备的内存和计算资源会成为瓶颈，导致模
型无法加载和处理如此庞大的参数集。
因此，为了应对这一挑战，我们需要采用分布式训练的方法，这意味着我们必须
依赖多台机器上的多个 GPU卡，以协同工作来进行大规模模型的训练。这一过程可以
包括单机多卡、多机多卡等策略，以确保模型的规模和性能都能达到所需的水平。单
机多卡训练模式允许我们充分利用一台机器上的多个 GPU卡，将数据和工作负载分配
给各个卡，以实现更快的训练速度和更大规模的模型。而多机多卡训练模式则进一步
扩展了计算资源，通过联合多台机器上的多个卡片来分布式训练模型。这种方式不仅
提供了更大规模的计算资源，还提高了模型的可扩展性和鲁棒性，使其能够适应不同
应用场景的需求。
综上所述，深度学习模型的规模不断扩大，为了充分利用这些超大规模模型的潜
力，我们必须采用分布式训练的方法。这不仅需要适应性强大的硬件基础设施，还需
要有效的分布式训练策略和算法来管理和协调多个设备之间的工作。分布式训练已经
成为推动深度学习领域进一步前进的关键因素之一，为未来的机器学习研究和应用领
域开辟了广阔的可能性。

目前，针对超大规模模型的分布式训练策略，最为广泛采用的是 4D并行策略，它
集成了数据并行、张量并行、流水线并行以及优化器并行等四种关键方式，以容纳庞
大的参数规模并提供高效的训练效率。然而，尽管这些策略在解决分布式训练挑战方
面取得了显著进展，它们仍然面临着一系列各自独特的问题。

数据并行策略，尽管在处理模型参数分布时表现出了一定的有效性，却在面对大
规模数据集的训练时显现出一些明显的局限性。其中最主要的问题在于它需要频繁的
全局同步。在分布式数据并行训练中，模型的参数梯度需要在不同设备之间同步，而
这往往涉及到数十亿甚至更多参数的同步传输。这种大规模同步导致了巨大的通信开
销，对计算资源和网络带宽造成了巨大的压力，从而限制了训练速度的提升。这也让
数据并行策略在大规模模型的分布式训练中变得相对低效。
张量并行策略为了克服单设备内存限制而诞生，它将模型的参数划分成不同的张
量，并将这些张量分配到不同的设备上进行计算。然而，这也引入了新的挑战，即跨
卡的数据通信需求。在这种策略中，计算不能开始直到跨设备的数据通信完成，这导
致了设备上大量的计算资源空闲。这种资源空闲问题限制了训练过程的并行性，降低

--- 第 24 页 ---
了整体效率。
3. 流水线并行策略为减小计算和通信之间的等待时间提供了有力手段。通过将训练
过程分成多个阶段，流水线并行策略可以使计算和通信交错进行，减少了资源的浪费。
然而，实际中，要使流水线并行策略发挥最佳效果，需要精细的调整和配置。不同阶
段之间的协调和平衡非常关键，否则可能导致训练效果不佳，需要繁琐的参数调整工

已掌握的信息

通过对《项目建设方案V3.0+电子印.pdf》前30页的分析，已明确了项目的核心目标、研究内容和关键技术挑战。

项目定位：研发一个名为“阶跃星辰”的通用多模态图文生成理解一体化大模型，参数规模对标GPT-4（万亿级别），旨在打通图像、文本、音频等多模态信息的理解与生成。
核心研究内容：研究体系分为基础层、算法层和应用层。基础层包括建设万卡规模的智算集群和训练中文基础模型；算法层专注于研发统一的多模态模型；应用层则探索在金融、教育等领域的落地。
关键技术方案：
- 算力建设：采用以NVIDIA H800为核心的万卡规模集群，并利用RoCE（而非IB）技术构建高速网络。
- 系统框架：开发高效率的分布式训练框架（采用数据、张量、流水线、优化器4D并行技术）和高性能的推理系统。
- 模型架构：以自研的中文大语言模型为基座，通过连接器模块，整合类CLIP的图像编码器和类Stable Diffusion的图像解码器，实现图文的统一建模。
- 系统管理：将采用智能调度与监控技术（如Prometheus、Grafana）来管理和优化GPU集群资源。

下一步行动计划

之前的行动计划已成功帮助我们理解了项目的核心技术框架。接下来，我们将延续该计划，深入文档的剩余部分，以构建一份完整的技术设计方案。

完成信息提取与整合：继续分析PDF文件的剩余部分（特别是第30页之后），重点提取“项目实施进度与管理”、“投资估算及资金筹措”和“风险分析”等章节的关键信息。这将为制定详细的实施路线图和风险应对策略提供依据。
构建技术方案核心章节：基于已提取的全部信息，系统性地撰写技术设计方案的各个核心章节：
- 总体架构设计：绘制一幅清晰的系统架构图，直观展示基础设施层、数据处理层、模型服务层和应用接口层之间的关系。
- 模块化功能设计：详细阐述“大规模智算集群”、“分布式训练与推理系统”、“多模态数据处理平台”、“一体化大模型”等核心模块的具体设计原则、功能规格和技术实现细节。
- 技术选型与路线：将文档中分散的技术点（如H800、RoCE、4D并行、Paged Attention等）汇总成一个明确的技术栈清单，并简要论证其选型理由。
制定实施与部署蓝图：
- 项目实施路线图：根据文档中提到的项目周期（2023年6月至2025年5月），创建一个可视化的项目实施路线图（如甘特图），标明各阶段（如集群建设、基础模型训练、多模态能力研发、应用验证）的关键里程碑和交付节点。
- 部署与运维策略：结合文档中关于集群调度和监控的描述，规划系统的部署架构、自动化运维流程以及长期的性能监控与优化方案。
最终报告生成与润色：将以上所有分析和设计成果整合，并嵌入架构图、路线图等可视化元素，最终形成一份结构严谨、内容详实、图文并茂的《“阶跃星辰”通用多模态大模型总体技术设计方案》。

让我继续获取文档的剩余内容：

执行代码

python

以下为截断后的前5000字执行结果

--- 第 30 页 ---
生成、文本生成、音频生成、图像理解、文字理解、音频理解任务的任意排列组合。
为实现该目标，并按照前述关键技术问题进行了任务拆解，如下表：

四、建设方案
（一）基础模型、算力与系统

大规模智算集群建设
我们计划用高速网络连接 GPU服务器，达到平均每张 GPU至少 200Gbps
带宽接入到网络中。在 RDMA技术选型上，本项目采用更为通用，国产化程度更
高的 RoCE技术。对于万卡集群，我们需要搭建至少万口 200Gbps 接入的大型网
络。
同时，基于任务特性与 GPU硬件特性进行任务分配的研究结果，我们需要进
一步探讨如何根据应用需求去调度任务到不同的 GPU型号上。这里我们提出了一
种应用驱动的映射策略。针对于 GPU硬件在各种型号间的计算能力，内存大小，
以及能耗等方面的差异，我们将这些差异反应在任务调度上，去根据应用需求进
行最合理的任务调度。这种考虑应用需求和满足 GPU硬件特性的调度策略，可以
保证每个任务都能分配到最合适任务执行的 GPU上，从而实现任务性能的最大化。
训练与推理系统优化
我们的模型训练基于 Megatron -LM来实现 3D并行训练，自主开发了众多算
子和框架层面的优化，并与硬件、集群进行了针对性联合优化。具体的优化项如
--- 第 31 页 ---
下：
类别优化项英文简称
算子优化

自注意力算子访存优化 FlashAttention2
Adam优化器算子 Fused Adam Optimizer
组注意力算子 Group Query Attention
RMSNorm 算子 RMSNorm Kernel
SwiGLU 算子 Fused SwiGLU Kernel
残差-Norm融合 Fused Residual Norm Kernel
梯度累计算子 Gradient Accum. Kernel
框架优化

分布式优化器显存优化 Distributed Optimizer
虚拟流水线并行 Virtual PP
重叠的点对点通信 Overlap P2P Comm.
重叠的通信矩阵乘法（张量并行） Overlap TP Comm.
序列并行显存优化 Sequence Parallel
我们目前基于 vLLM推理框架来实现模型推理，自主进行了众多算子优化。
具体的优化项如下：
类别优化项英文简称
算子优化
自注意力算子访存优化 FlashAttention2
组注意力算子 Group Query Attention
框架优化
自动序列组块路由 Auto Batching
分页 KV缓存 Paged KV Cache

--- 第 32 页 ---

int8 量化支持 int8 Quantization
int4 量化支持（向量旋转） int4 Quantization (VecRot.)
3. 万亿参数语言模型
目前，我们已经自主开发了闭源的、以中文和英文为主的多语种大语言模型，拥
有1300亿参数。其基座模型使用近三千块 A800计算芯片，在超过一万六千亿标识符
的多语种语料上进行预训练；其对话模型使用超过五百万条高质量指令数据进行微调，
能完成广泛的下游任务。我们的模型在多个数据集上取得了突出指标，其中，中文 C-
Eval测试集准确率 75.3%，英文 MMLU验证集准确率 76.6%，均处于国内大模型的
最高水平。
我们自研模型在结构上具有以下特点：

在注意力算法上，使用了分组注意力机制（ Group Query Attention ），相比于多头
注意力机制（ Multi -Head Attention ），其具有约 10倍的推理效率提升，在同显存下能
支持 10倍以上的上下文长度。
在位置编码上，使用了 ALiBi 相对位置编码，相比绝对位置编码和 RoPE等位置
编码，具有更好的外插特性，能在不微调的情况下最大支持 64,000 的上下文长度。
在前馈层算法上，使用了改良的 SwiGLU Activation 算法，相比于传统的 MLP结
构具有更高的参数利用率和表达能力。
在 1300亿模型的扎实基础上，我们将同时探索稠密 Transformer 和类 GPT-4 的
稀疏专家模型 MoE 等架构，逐步实现万亿参数的中文语言模型，并针对多模态统一模
型的需求进行针对性优化，如新的注意力掩码机制、标识符引用算法等。
（二）通用多模态一体化大模型
本项目旨在建立一个集文本、语音、图像理解和生成一体化的模型。所研发模型
以自然语言大模型为底座，通过自回归算法在大量图文混排、音文混排、图文音混排
等数据上进行训练，建模图文、音文、图文音的联合分布，进而使所研发模型能够在
给定任意一个或多个模态时，均能建模相应的后验分布，以此打通图像、文字、音频
在生成和理解上的鸿沟，用一个模型统一三大模态，实现模型性能的本质提升。现实
应用中，当用户输入的任一或多个模态的指令时，所研发模型均能完成相应的理解或
生成任务。

--- 第 33 页 ---

结构上，所研发模型主要包括编码器、多模态大模型、解码器三个部分。编码器
主要对输入的图片、文本或语音分别利用图片编码器、文本编码器、或者语音编码器
进行编码。这里的编码器通常是在相应的模态上预训练过具有良好表征提取能力的模
型。多模态大模型进而基于这些编码特征对后续内容进行预测。解码器对预测的图片
内容、文本内容、语音内容分别利用图片解码器、文本解码器、音频解码器进行相应
的解码。为了保证所研发模型能够正确判断出所预测的图片内容和音频内容，图片内
容和音频内容的起始位置和终止位置均被插入不同的特殊字符，这样当多模态大模型
预测出相应的特殊字符时，所研发模型即能判断出图片或者音频内容的起始或者终止。
在训练过程中可以通过对多模态大模型预测的内容进行监督，或者直接对解码出来的
内容进行监督对模型进行优化。下面将以图像的理解和生成为例来具体介绍所研发模
型的结构。具体来讲，为了赋予所研发模型图像理解能力，我们主要从两个方面进行：
一方面是直接提升图像编码空间和大语言模型输入空间的一致性，使得在赋予多模态
模型图像理解能力的时候尽可能不破坏模型的语言能力；另一方面是利用多模态模型
构建图像和文本的联合分布，使得模型能够基于图像和文本输入进行后验分布。在图
像编码和文本编码空间对齐的问题上，以 CLIP为代表的方法通过在大量的图文对上训
练获得了一个和文本编码比较一致的图像编码器，因此所研发模型可以利用 CLIP模型
进行图像编码提取，再通过一个连接器将 CLIP 模型提取的图像编码进一步对齐到多
模态大模型的输入空间。在建模图像和文本的联合分布问题上，得益于互联网上大量
容易获取的图文混合的网页，所研发模型可以通过自回归算法在大量的图文混合数据
上训练来赋予模型具有建模图像和文本联合分布的能力，从而使得模型能够基于输入
的图像或文本预测出合理的后验分布。在图像生成上，得益于现有生成模型的迅速发
展，以 Stable Diffusion 模型为代表的扩散模型具有较强的由文本控制信号到图片的解
--- 第 34 页 ---
码能力，所研究模型采用 Stable Diffusion 模型作为图像解码器，把多模态大模型预测
的控制图像生成信号解码成相应的图像。为了更好地把多模态大模型的输出信号对齐
到Stable Diffusion 模型的输入空间，同时减少图像生成对多模态大模型语言能力的影
响，所研究模型利用一个多模态大模型的输出空间和 Stable Diffusion 模型控制信号的
输入空间的连接器，来完成两个空间之间的映射。由于多模态大模型具有长序列建模
的能力，所研究模型可以基于长文本进行图像生成，实现更精细的图像生成控制。
大量的数据是保证多模态大模型具有优良的多模态建模能力的基础。在数据构建
上，公司已具备从互联网上下载包含中、英等多种语言的上百兆多模态混排数据的经
验。混排数据的下载来源主要从以下几方面考虑： 1）互联网大量可以自由访问的网页；
2）流媒体网站的音视频。从互联网上获取的数据会经过多道过滤工序，包括低质量图
片与低质量文本过滤、成人内容过滤、网页与图像去重等以确保数据的质量与合规性。
此外，为了尊重内容创作者的合法权益，所有创作者明确表明不允许被用于训练 AI的
图像或其他媒体内容，均不会被纳入训练数据。
所研发模型的训练和测试的具体流程可以细化为如下：
训练流程： 1）基于在文本上预训练好的大规模语言模型，利用自回归算法在
大量多模态混排的数据上进行进一步的预训练，使模型能够正确建模多模态联合
分布； 2）在下游少量带有指令的数据上微调模型，这里的指令数据是根据需求构
造的，如需要模型能够根据用户输入的文本生成相应的图片，则需要构造人类输
入文本指令，模型根据指令生成相应图片的数据；需要模型具备对用户输入的图
片做出相应的视觉问答的数据，则需要构造用户输入图片，然后提出问题，模型
给出正确答案的指令数据。
测试流程： 1）要求人类输入指令； 2）所研发模型根据人类输入指令，自回
归地生成回答序列，一旦生成了图像生成开始令牌，立即把图像生成查询编码输
入多模态大模型预测图片生成控制信号， Stable Diffusio n 模型利用这些控制信号
生成相应的图片，随后图片编码模块提取生成图片的编码，把图片编码输入到自
回归模块使其感知视觉信息，预测下一个令牌。一旦预测出了语音生成开始令牌，
则开始生产语音，具体过程和图像生成类似。如此直至回答结束。 3）重回第 1）
步。
所设计模型利用所采集数据和上述训练流程，具备以下基础能力： 1）图像理解能
力，对输入的图片进行理解和分析； 2）语音理解能力，能够正确理解语音指令； 3）
图像生成能力，能够根据需求根据输入的语音或者文本生成相应的图片； 4）语音生成
能力，能够根据需求根据输入的图片、文本等直接生成语音； 5）多模态理解，能够对
输入的包含图像、文本或音频包含多种模态的内容进行理解，根据指令完成相应的任
务；6）多模态生成，能够根据输入的指令，完成包含图像、文本或音频多种模态的内
容生成。依托上述能力，我们可以构建丰富的下游应用，例如依赖纯语言能力的：在
线问诊，医疗知识查询，依靠图像理解和生成能力的；研报辅助生成、自动插画、辅
助生成 ppt等，以及依托声音识别与生成能力的数字人社交等。

--- 第 35 页 ---
（三）多模态数据收集和清洗

中文文本数据的收集和清洗
中文文本数据出自于多个来源，包括中文百科数据、电子书、博客、新闻、论坛
以及其他网页抓取内容。经过去重、筛选、预处理后，总体规模在 700GB左右。文本
训练语料规模如下表所示。
语料集规模说明
百科类 100GB 中文各类百科（如百度百科、维基百科、互动
百科等）。
新闻类 50GB 国内新闻网站近年的部分数据。
电子书类 100GB 小说，电子书等资源。
泛爬取数据 450GB 中文网站中的泛抓取数据。
文本的清洗涉及到大量对文本内容的理解，比如对 Html和PDF的文档解析，文
本质量评分等。整体的数据清洗流程如下图所示。
中文图文对的收集和清洗
目前已有大量的开源英文图文对数据集，比如 LAION -5B和DataComp 内都有十
亿以上的图文对。其中有大量的英文图文对（比如对风景名胜图片的介绍）通过翻译
是可以转换为中文图文对数据

我需要继续获取文档的剩余内容，特别是关于项目实施进度和管理的部分。

执行代码

python

以下为截断后的前5000字执行结果

--- 第 40 页 ---

text

复杂的专业术语和概念常常令大众感到困惑，限制了科普知识的普及和传播。最后，
现有平台缺乏个性化服务，无法满足大众的个性化需求，可能导致对科普平台的兴趣
减弱。
多模态大模型的出现为这些痛点带来了重大变化。这一技术革新结合文本、图
像、声音等多种信息源，提高了科普信息的准确性和可靠性，满足了大众对多维度、
全方位信息的需求。同时，多模态大模型可以根据大众的查询历史和兴趣点，提供更
个性化的科普服务，例如推荐与其兴趣相匹配的科普内容，包括相关的视频、图表和
声音解释。这一变革不仅提高了用户的满意度和使用频率，也增强了科普平台的吸引
力和多样性。综上所述，多模态大模型为满足大众的知识性科普需求提供了新的机会，
有望推动科普知识的更广泛传播，提高人们的科学素养。
应用设计上，我们支持用户进行自然语言的输入，例如：帮我给孩子科普下什
么是室温超导？大模型会直接给输出一段视频，图文并茂、娓娓道来，讲解室温超导
五、申报单位和团队情况

text

中心，目前公司快速发展已经完成了首轮融资，金额数亿美元融资。

公司依托自研模型的企业产品正在和行业内头部的数字出版公司，金融新闻媒体，
银行等开展业务合作，已经完成两家对接，相关联合产品预计第四季度上线，面向公
众的产品预计 2023目前公司已经完成了 180Ì¨8¿¨A800 GPU ·þÎñÆ÷的自建集群建设，开发了拥有完
全自主知识产权的大模型训练集群管理和调度平台，完成了千亿参数完全自主研发的
闭源大模型 StepOne公司创始团队来自于国际云计算和互联网头部公司，国内 AI头部公司等，当前团
队41人，其中研发技术人员约 9 0%。
，性能全面达到国内领先水平。
年第四季度上线。
（二）高科技人才优势

阶跃星辰现已形成由 CTO姜大昕博士等人工智能专家为核心的技术团队，在 NLP、
CV、搜索等领域均具有多年的技术研发及项目管理经验。团队成员汇集了前微软、谷
歌、字节等人工智能专家，以及清华、西安交大、加利福尼亚大学、纽约州立大学等
世界名校毕业生。现有员工 41人，其中 9 0%以上均为高素质研发人员。
项目负责人简介

--- 第 41 页 ---
朱亦博，加利福尼亚大学计算机科学博士，阶跃星辰联合创始人。曾在字节跳动、
谷歌担任机器学习系统总监。曾在 Google为Anthropic 研发的单任务 16k GPU 训练
任务工作；负责过字节跳动单集群两万卡，全公司多集群共十五万卡的集群建设与资
源调度工作。
2. 项目核心人员简介
1）主要研发人员：汪彧之博士
汪彧之，清华大学电子工程博士，深度学习算法专家。曾任旷视科技研发总监，主持
研发了手机人脸解锁与支付、 AI 超画质、 AI ISP 芯片等项目，相关算法在多个旗舰手
机落地， 2次获得 DxO Mark 评分第一。致力于领导研发团队提升 AI 模型的通用智能。
2）主要研发人员：王斌
王斌，西安交通大学计算机应用学士，高性能计算和大数据系统专家。曾任微软中
国研发经理，微软大数据处理平台及机器学习平台核心成员。曾在国际期刊及会议发
表研究机器学习平台 GPU资源调度方面论文 1篇。致力于软硬件结合为核心的高性能
计算和大数据处理平台的技术研发。
3）主要研发人员：魏亚楠
魏亚楠，北京航空航天大学计算机硕士，大数据处理技术、搜索引擎技术和自然语
言处理专家。曾任微软中国必应搜索的技术经理，熟悉搜索相关的技术和算法。致力
于通过大数据技术和自然语言处理技术，为大模型提供大规模、高质量的训练语料。

六、投资估算及资金筹措
（一）项目总投资估算及投资明细
本项目总投资预计 8 8 8 4万元，其中自筹 7 1 0 9万元，申请专项资金 1775万
元。项目投资明细表如下：
费用名称总投资金
额
（万元）自筹金
额
（万
元）专项
金额
（万
元）备注
硬件设备
购置
用于研发或中试，购置的网络设备、服务
器、终端设备、存储设备、机房配套设2403 2403 0
备、专用仪器设备所支出的费用

--- 第 42 页 ---
硬件资源
与硬件服
务租赁
用于研发或中试，网络设备、服务器、终
端设备、存储设备等硬件资源与云平台服3058 2158 900
务租赁费用

3403 2528 875
本单位本项目相关研发人员的工资、五险
一金等

其他
20 20 0
由项目参与人员参加的与项目相关的外出
调研、研讨、信息交流等会务费和差旅
费；项目资料印刷

合计
8884 7109 1775
（二）项目资金筹划及落实情况
本项目计划自筹 7 1 0 9万元，已完成投资 482 4万元，明细表如下：
费用名称自筹总金
额
（万元）已完成投
资
（万元）已完成投资内容概述
硬件设备
购置 30台A800 GPU 服务器（ H3C R5500 G5 2403 2403 ）
硬件资源
与硬件服
务租赁
2158 租用云服务器用于训练模型；租用服务器机
柜及互联网专项费用用于维持自建服务器每个1739
月的正常运营。

研发设计研发设计
费
费2528 682项目相关研发人员的实际工资、社保公积金投
入

--- 第 43 页 ---

其他
20 0
合计 7109 4 824
七、项目实施进度与管理
（一）项目周期及实施进度安排

音、图像理解和生成一体化的模型。所研发模型以自然语言大模型为底座，通过自回
归算法在大量图文混排、音文混排、图文音混排等数据上进行训练，建模图文、音文、
图文音的联合分布，进而使所研发模型能够在给定任意一个或多个模态时，均能建模
相应的后验分布，以此打通图像、文字、音频在生成和理解上的鸿沟，用一个模型统
一三大模态，实现模型性能的本质提升。现实应用中，当用户输入的任一或多个模态本项目自 2023年6ÔÂ1ÈÕ至2025年5ÔÂ31ÈÕ，共 2年。项目旨在建立一个集文本、语
的指令时，所研发模型均能完成相应的理解或生成任务。
表7-1 项目计划
起止时间主要工作内容
第一年 1. 图文音三模态一体的多模态基础模型研发完成。
2. 50%的学术指标达成项目预期。
第二年

深耕产业，孵化出不少于 2个产业落地案例。
性能调优， 100%学术指标达成项目预期。

（二）项目期管理模式
设置项目管理办公室，统管项目各部门的协调和项目的实施。
1.资金管理

--- 第 44 页 ---
项目组在立项时向项目管理办公室申报预算及实施计划，按照公司流程完成审批。
项目款项专款专用，由项目负责人统一管理，项目管理办公室监督。该款项专款专用
于项目的研发、技术攻关，并按照项目建设的进度、质量以及企业自有款项到位情况
分期投入。设备采购由项目负责人汇总需求提出，由采购部按照相关规定统一负责采
购。
2.进度管理
由项目负责人协调制定统一的项目进度计划，各子项目的设计方案、实施计划上
报备案，每周上报一次项目进度报告。项目管理办公室每月定期举行一次项目进度会
议，并不定期进行现场项目进度检查，及时发现问题，协调项目的顺利进行。
3.质量管理
全面加强对项目系统从设计、研发、平台搭建的全程监控，建立严格的技术档案，
实行版本和编号管理，同时，制定项目实施规范和标准，必要时可聘请国内外专家参
加质量检查。

八、项目盈利运营模式及经济社会效益
（一）项目盈利运营模式
该项目以通用多模态图文生成理解一体化大模型为核心，旨在与金融、出版、
医疗等多个领域的实际场景和需求相结合，以实现双重战略目标。一方面，我们与合
作伙伴进行深度合作，在各领域的具体场景中应用这一大模型，从而推出专门针对特
定领域的相关产品和服务，通过满足用户需求来实现商业化变现。
另一方面，通过多行业多场景的验证和实践，我们将积累丰富的经验和数据，
以不断改进通用多模态大模型的性能和适用性。这有助于我们逐步沉淀平台级产品，
为不同行业的企业提供通用的解决方案，从而推动项目的商业化发展。同时，我们还
计划借此机会在不同行业建立生态系统和合作网络，实现更广泛范围的商业变现和项
目盈利。
（二）经济效益
本项目的经济效益一方面来自于项目本身在各个行业的场景落地带来的商业价值
的变现，更重要的是对涉及的行业的产业价值和经济效益的带动，根据我们的粗略估
计，项目的推进，会助力这些巨大价值的行业完成进一步的智能化升级，对关键场景

--- 第 45 页 ---
的降本增效，将直接或间接带动超百亿级别的经济效益。通用多模态图文生成理解一
体化大模型的出现，是一次从技术出发到行业落地的大的变革机会，是人工智能能力
和行业场景的进一步结合和碰撞，势必将迸发出更多的新机会，创作更大的商业价值。
（三）社会效益
本项目是极具技术价值和产业价值的新兴领域，一方面，从技术角度，本项目的
落地和推进，将为整个大模型产业的落地提供示范意义和经验教训，同时本项目的相
关基础建设和相关生态建设，都将为产业的形成和后续发展打下坚实的基础。除此之
外，产业价值方面，本项目的场景验证均与高价值行业的实际场景进行结合，将助力
这些行业和领域进一步扩大影响力，增大行业的社会效益，例如：

知识普及和教育：通用多模态大模型可以为教育领域带来巨大的价值。它们能够
以多种形式呈现知识，包括文字、图像和声音，从而更好地满足不同学习者的需求。
这有助于提高教育的个性化程度，加强知识的普及，促进学生的学习成果。
科研和创新：通用多模态大模型提供了处理和分析多种数据类型的能力，这对于
科研和创新非常关键。科学家和研究人员可以利用这些模型来分析复杂的数据，加速
研究进程，推动科学的前沿。
专业服务大众化：将原本生产力受限的例如投资研究、医疗等专业服务，通过通
用多模态大模型，实现低成本的向大众辐射，以满足人民日益增长的对美好生活的各
项需求和向往。

九、风险分析
（一）技术风险
阶跃星辰团队在文本与图像等多个模态的科研与产品具有丰富经验，依托自有软
硬件产品及产业合作伙伴的相关业务进行了广泛、长期的应用。在大模型时代，阶跃
星辰持续以创新作为立足点，以人才为核心、市场为导向、产业化为目标、 “产学研用 ”
为支撑，致力于以技术创新驱动企业发展。
企业对于通用的多模态图文生成理解一体化大模型的研发与建设，在技术上对其
可行性进行了充分评估，并确定了该技术方向领先于当前的多模态大模型方案。但是，
由于该项目方案在技术上的前瞻性，其最终产出的实用性会有一定的不确定性，有可
能与新技术与新产品的主流发展方向产生偏离，从而在成本和效益等方面缺少竞争优
势。
考虑到技术风险，项目建设将对目标进行充分拆解，确保阶段性成果的突破性与
有效性。并在建设过程中充分利用国内外科研机构和企业的技术交流，凭借充分的技

--- 第 46 页 ---
术创新，保证项目技术同时具备前瞻性与实用性，规避技术实用化等风险。
（二）市场风险
自ChatGPT 发布以来，全球范围内

我需要继续获取文档的最后一页内容，以确保我对项目的风险分析和结论部分有完整的了解。

执行代码

python

现在我已经全面了解了《阶跃星辰-通用多模态图文生成理解一体化大模型的研发和应用》项目建设方案的内容。基于这些信息，我将为您撰写一份全面的总体技术设计方案。

可视化工具

已掌握的信息

项目核心目标: 项目名为“阶跃星辰”，旨在研发一个对标GPT-4的万亿参数级通用多模态大模型，实现文本、图像、音频的统一理解与生成。
核心技术架构: 硬件层面，项目将建设一个由上万张H800 GPU卡构成、通过RoCE高速网络互联的智算集群。软件层面，将基于Megatron-LM和vLLM等框架，自主优化和开发分布式训练与推理系统，并应用FlashAttention2、分组注意力（GQA）、Paged KV Cache等先进技术。模型层面，以自研的千亿参数中文大模型为基础，通过连接器模块整合类CLIP的编码器和类Stable Diffusion的解码器，构建一体化多模态架构。
实施与管理: 项目周期为两年（2023年6月至2025年5月），第一年完成三模态基础模型研发，第二年深耕产业落地。项目设有专门的管理办公室，对资金、进度和质量进行严格管控。
数据与应用: 已规划了详尽的多模态数据（文本、图文对、音频等）收集与清洗流程。初期应用将聚焦于金融投研助手和多模态大众知识科普等领域。

下一步行动计划

构建总体技术方案框架：基于已掌握的信息，搭建一份完整技术设计方案的报告结构。该结构将包括引言、总体架构设计、核心模块详述（基础设施、系统框架、模型层、数据平台）、技术路线论证、实施与部署规划、以及风险管理等章节。
撰写各章节详细内容：系统性地将从项目建设方案中提取的关键信息填充到上述报告框架的对应章节中。例如，在“核心模块详述”中，将详细罗列出文档中提到的所有关键算子优化项和框架优化项；在“实施与部署规划”中，将明确阐述项目管理模式和质量控制措施。
创建核心内容的可视化图表：
- 设计一幅更详尽的“阶跃星辰”项目总体架构图，清晰地展示从底层基础设施到上层应用的全景视图。
- 根据项目方案中明确的两年周期和各阶段目标，创建一个项目实施路线图（甘特图），直观地呈现关键任务、里程碑及时间节点。
整合与定稿：将所有文字内容与可视化图表整合，形成一篇逻辑严密、内容详实、图文并茂的《“阶跃星辰”通用多模态大模型总体技术设计方案》最终报告。

让我先创建一个总体架构图：

可视化工具

现在让我创建一个项目实施路线图，以便更清晰地展示项目的时间线和关键里程碑：

可视化工具

现在让我创建一个详细的技术架构图，展示系统各组件之间的关系和数据流：

可视化工具

现在让我创建一个多模态大模型的数据流程图，展示从输入到输出的处理流程：

可视化工具

已掌握的信息

项目核心目标与定位：项目名为“阶跃星辰”，旨在研发一个对标GPT-4的万亿参数级通用多模态大模型，实现文本、图像、音频的统一理解与生成。
核心技术架构：硬件层面，项目将建设一个由上万张H800 GPU卡构成、通过RoCE高速网络互联的智算集群。软件层面，将基于Megatron-LM和vLLM等框架，自主优化和开发分布式训练与推理系统，并应用FlashAttention2、分组注意力（GQA）、Paged KV Cache等先进技术。模型层面，以自研的千亿参数中文大模型为基础，通过连接器模块整合类CLIP的编码器和类Stable Diffusion的解码器，构建一体化多模态架构。
实施与管理：项目周期为两年（2023年6月至2025年5月），第一年完成三模态基础模型研发，第二年深耕产业落地。项目设有专门的管理办公室，对资金、进度和质量进行严格管控。
数据与应用：已规划了详尽的多模态数据（文本、图文对、音频等）收集与清洗流程。初期应用将聚焦于金融投研助手和多模态大众知识科普等领域。

下一步行动计划

构建总体技术方案框架：基于已掌握的全部信息，搭建一份完整技术设计方案的报告结构。该结构将包括引言、总体架构设计、核心模块详述（基础设施、系统框架、模型层、数据平台）、技术路线论证、实施与部署规划、以及风险管理等章节。
撰写各章节详细内容：系统性地将从项目建设方案中提取的关键信息填充到上述报告框架的对应章节中。例如，在“核心模块详述”中，将详细罗列出文档中提到的所有关键算子优化项和框架优化项；在“实施与部署规划”中，将明确阐述项目管理模式和质量控制措施。
整合与定稿：将所有文字内容与先前生成的可视化图表（包括总体架构图、实施路线图、技术架构详图和数据流程图）整合，形成一篇逻辑严密、内容详实、图文并茂的《“阶跃星辰”通用多模态大模型总体技术设计方案》最终报告。

现在，让我基于所有收集的信息，撰写完整的技术设计方案：

阶跃星辰通用多模态图文生成理解一体化大模型总体技术设计方案

一、项目概述

1.1 项目背景

随着人工智能技术的快速发展，大语言模型已成为当前AI领域的研究热点。特别是在2023年，以ChatGPT为代表的大语言模型在国内外引起广泛关注，催生了大量落地应用。然而，现阶段的自然语言大模型主要局限于文本理解与生成，无法同时处理图像、音频等生活中其他主要的信号形式，应用潜力受到极大限制。

多模态大模型作为下一代AI技术，已成为产业界新的角逐热点。从学术角度看，人类感知外界环境的90%信息以视觉模态形式输入，因此为达到通用人工智能(AGI)目标，必须将视觉和自然语言进行联合建模。从产业角度看，以图像、视频、语音等为代表的多模态输入可以极大拓展大模型的能力边界，推动其在效率工具、精准医疗、创意设计等高价值领域的应用潜力。

目前，国际头部公司如OpenAI已在GPT-4中初步集成了多模态理解功能，并计划在下一版模型中引入对视频理解和视觉生成的全面支持。国内发展自己的多模态大模型的需求十分迫切。

1.2 项目目标

本项目旨在研发新型通用多模态图文音生成理解一体化大模型，打通图像、文字、音频在生成和理解上的鸿沟，用一个大模型统一图像生成、图像理解、文字生成、文字理解、音频生成、音频理解六大多模态AI的基础问题，实现模型性能的本质提升。

具体目标包括：

建设万卡规模的高性能智算集群，支撑大规模模型训练
研发高效的分布式训练与推理系统
训练千亿至万亿参数规模的中文基础大模型
构建通用多模态一体化大模型，实现图文音的统一理解与生成
开发多模态数据收集和清洗平台
在金融投研、知识科普等领域实现应用落地

1.3 项目周期

本项目周期为2年，自2023年6月1日至2025年5月31日。

二、总体架构设计

2.1 架构概述

阶跃星辰多模态大模型采用分层架构设计，从底层基础设施到上层应用服务，构建完整的技术栈。整体架构分为五层：基础设施层、系统框架层、模型层、数据处理层和应用层。

层级	组件	详细内容
基础设施层	计算资源	万卡规模H800 GPU集群
	网络架构	RoCE技术实现的高速RDMA网络（每GPU 200Gbps带宽）
	存储系统	分布式存储系统，支持PB级数据存储
	集群管理	自研集群调度与监控系统
系统框架层	分布式训练框架	• 并行策略：数据并行、张量并行、流水线并行、优化器并行(4D并行) • 算子优化：FlashAttention2、Fused Adam、Group Query Attention等 • 框架优化：虚拟流水线并行、重叠通信、序列并行等
	高性能推理系统	• 内存优化：Paged KV Cache • 批处理：Auto Batching • 加速技术：int8/int4量化、投机解码
模型层	中文基础大模型	1300亿参数，ALiBi位置编码，SwiGLU激活
	多模态编码器	CLIP类图像编码器、音频编码器
	多模态解码器	Stable Diffusion类图像解码器、音频解码器
	多模态连接器	编码空间对齐模块、解码控制信号生成模块
数据处理层	数据采集	网页爬取、图文对收集、音频数据收集
	数据清洗	质量过滤、成人内容过滤、去重、OCR提取
	数据处理	图文混排数据处理、多语言处理
	数据存储	分布式数据存储与索引系统
应用层	金融投研助手	研报辅助生成、数据可视化、投资分析
	多模态知识科普	图文音结合的知识讲解
	其他垂直应用	医疗辅助诊断、创意设计、数字人社交

2.2 系统数据流

阶跃星辰多模态大模型的数据处理流程涵盖从用户输入到系统输出的完整路径，支持多种模态的输入与输出。系统能够处理文本、图像、音频等多种形式的输入，通过多阶段处理后，生成相应的多模态输出内容。

阶段	子阶段	描述
输入阶段	文本输入	用户提问、指令或对话内容
	图像输入	用户上传的图片、图表或视觉内容
	音频输入	用户语音指令或音频内容
处理阶段	1. 输入编码	- 文本编码：将文本转换为模型可理解的token序列 - 图像编码：使用CLIP类编码器将图像转换为特征向量 - 音频编码：将音频转换为特征向量
	2. 多模态对齐	- 连接器模块：将不同模态的特征向量对齐到统一的表示空间 - 特征融合：将多模态特征进行融合处理
	3. 大模型推理	- 自回归预测：基于输入特征预测下一个token - 多模态理解：理解图像、文本、音频的内容和关系 - 生成控制信号：为不同模态的生成任务产生控制信号
	4. 输出解码	- 文本解码：将模型输出的token转换为自然语言文本 - 图像解码：使用Stable Diffusion类解码器将控制信号转换为图像 - 音频解码：将控制信号转换为音频输出
输出阶段	文本输出	回答、解释、描述或指令执行结果
	图像输出	生成的图像、可视化内容或编辑后的图像
	音频输出	生成的语音、音效或音乐
	多模态混合输出	文本+图像+音频的组合内容

2.3 项目实施路线图

项目实施分为两个阶段：第一年(2023年6月-2024年5月)主要完成基础设施建设、基础模型训练和多模态能力研发；第二年(2024年6月-2025年5月)重点进行模型能力拓展、应用开发与落地以及性能调优。

阶跃星辰项目实施路线图

View the chart

View data

上图展示了项目各阶段的关键任务及时间安排，清晰地呈现了从基础设施建设到应用落地的完整实施路径。第一年主要聚焦于技术基础的构建，第二年则侧重于能力拓展和产业落地，形成了合理的技术研发与应用推广节奏。

三、核心模块详述

3.1 基础设施层

3.1.1 大规模智算集群

本项目将建设万卡规模的高性能智算集群，以支撑大规模模型训练。目前已完成180台8卡A800服务器的集群建设，未来将扩展至万卡规模。

关键技术点：

高速网络互联：采用RoCE技术实现的高速RDMA网络，每张GPU至少200Gbps带宽接入。相比英伟达垄断的IB技术，RoCE技术更为通用，国产化程度更高。
网络拓扑设计：根据通信流量特点设计网络拓扑，加强通信流量大的链路带宽。
集群调度与监控：开发智能调度策略，基于任务特性与GPU硬件特性进行任务分配，提高集群利用率。

集群监控系统采用Prometheus和Grafana等工具，实时监控GPU使用率、内存使用率、功耗等关键指标，设定预警阈值，及时发现并处理问题。

3.1.2 存储系统

构建分布式存储系统，支持PB级数据存储，满足大规模多模态数据的存储需求。存储系统需要支持高吞吐、低延迟的数据访问，确保训练过程中的数据供给不成为瓶颈。

3.2 系统框架层

3.2.1 分布式训练框架

本项目基于Megatron-LM实现3D并行训练，并进行了大量自主优化。主要优化项包括：

算子优化：

FlashAttention2：优化自注意力算子访存
Fused Adam Optimizer：优化Adam优化器算子
Group Query Attention：组注意力算子
RMSNorm Kernel：RMSNorm算子
Fused SwiGLU Kernel：SwiGLU算子
Fused Residual Norm Kernel：残差-Norm融合
Gradient Accum. Kernel：梯度累计算子

框架优化：

Distributed Optimizer：分布式优化器显存优化
Virtual PP：虚拟流水线并行
Overlap P2P Comm.：重叠的点对点通信
Overlap TP Comm.：重叠的通信矩阵乘法（张量并行）
Sequence Parallel：序列并行显存优化

这些优化措施能够节约显存，提高硬件算力利用率，使同样的GPU数量可以训练更大规模的模型，处理更多的数据。

3.2.2 高性能推理系统

本项目基于vLLM推理框架实现模型推理，并进行了多项自主优化：

算子优化：

FlashAttention2：优化自注意力算子访存
Group Query Attention：组注意力算子

框架优化：

Auto Batching：自动序列组块路由
Paged KV Cache：分页KV缓存
int8 Quantization：int8量化支持
int4 Quantization (VecRot.)：int4量化支持（向量旋转）

这些优化技术显著提升了推理性能，降低了延迟，提高了吞吐量，使模型能够更高效地服务用户请求。

3.3 模型层

3.3.1 中文基础大模型

目前已自主开发了闭源的、以中文和英文为主的多语种大语言模型，拥有1300亿参数。其基座模型使用近三千块A800计算芯片，在超过一万六千亿标识符的多语种语料上进行预训练；其对话模型使用超过五百万条高质量指令数据进行微调。

模型在多个数据集上取得了突出指标：中文C-Eval测试集准确率75.3%，英文MMLU验证集准确率76.6%，均处于国内大模型的最高水平。

模型结构特点：

注意力算法：使用分组注意力机制(Group Query Attention)，相比多头注意力机制(Multi-Head Attention)，具有约10倍的推理效率提升，在同显存下能支持10倍以上的上下文长度。
位置编码：使用ALiBi相对位置编码，相比绝对位置编码和RoPE等位置编码，具有更好的外插特性，能在不微调的情况下最大支持64,000的上下文长度。
前馈层算法：使用改良的SwiGLU Activation算法，相比传统的MLP结构具有更高的参数利用率和表达能力。

在此基础上，项目将探索稠密Transformer和类GPT-4的稀疏专家模型MoE等架构，逐步实现万亿参数的中文语言模型。

3.3.2 多模态一体化大模型

本项目的多模态一体化大模型以自然语言大模型为底座，通过自回归算法在大量图文混排、音文混排、图文音混排等数据上进行训练，建模图文、音文、图文音的联合分布，使模型能够在给定任意一个或多个模态时，均能建模相应的后验分布。

模型结构主要包括编码器、多模态大模型、解码器三个部分：

编码器：对输入的图片、文本或语音分别利用图片编码器、文本编码器、或语音编码器进行编码。
多模态大模型：基于编码特征对后续内容进行预测。
解码器：对预测的图片内容、文本内容、语音内容分别利用图片解码器、文本解码器、音频解码器进行解码。

为确保模型能正确判断预测内容的类型，图片内容和音频内容的起始位置和终止位置均被插入不同的特殊字符，使模型能判断出图片或音频内容的起始或终止。

图像理解方面，模型采用两种方法：

提升图像编码空间和大语言模型输入空间的一致性，使赋予多模态模型图像理解能力时尽可能不破坏模型的语言能力。
利用多模态模型构建图像和文本的联合分布，使模型能基于图像和文本输入进行后验分布。

图像生成方面，模型采用Stable Diffusion模型作为图像解码器，将多模态大模型预测的控制信号解码成图像。为更好地对齐输出信号，模型使用连接器将多模态大模型的输出空间映射到Stable Diffusion模型的输入空间。

3.4 数据处理层

3.4.1 中文文本数据

中文文本数据来源多样，包括中文百科数据、电子书、博客、新闻、论坛以及其他网页抓取内容。经过去重、筛选、预处理后，总体规模在700GB左右。

文本训练语料规模如下：

百科类：100GB（中文各类百科，如百度百科、维基百科、互动百科等）
新闻类：50GB（国内新闻网站近年的部分数据）
电子书类：100GB（小说，电子书等资源）
泛爬取数据：450GB（中文网站中的泛抓取数据）

文本清洗涉及对文本内容的理解，包括HTML和PDF的文档解析，文本质量评分等。

3.4.2 中文图文对数据

项目将利用开源英文图文对数据集（如LAION-5B和DataComp）中的资源，通过翻译转换为中文图文对数据。同时，也将从中文互联网上爬取原生中文图文对数据，确保数据的多样性和质量。

3.4.3 中文图文混排数据

图文混排数据是多模态模型训练的重要资源，主要来源于互联网上的网页。数据获取后需经过多道过滤工序，包括低质量图片与低质量文本过滤、成人内容过滤、网页与图像去重等，以确保数据的质量与合规性。

3.4.4 中文音频数据

音频数据收集主要来源于流媒体网站的音视频内容。项目将建立专门的音频数据处理流程，包括音频质量评估、语音识别、音频分割等步骤，确保音频数据的质量和多样性。

3.5 应用层

3.5.1 金融投研助手

金融投研助手应用将多模态大模型应用于金融领域，提供研报辅助生成、数据可视化、投资分析等功能。该应用能够理解金融图表、文本报告，并生成高质量的分析内容，提升金融从业者的工作效率。

3.5.2 多模态大众知识科普

多模态知识科普应用利用模型的图文音结合能力，为用户提供生动、直观的知识讲解。用户可通过自然语言输入查询科普知识，系统会生成包含文字、图像、音频的综合内容，使知识传播更加高效和易于理解。

3.5.3 其他垂直应用

项目还将探索在医疗辅助诊断、创意设计、数字人社交等领域的应用，充分发挥多模态大模型的潜力，解决实际问题，创造社会价值。

四、技术路线与选型

4.1 计算基础设施选型

4.1.1 GPU选型

项目选择NVIDIA H800 GPU作为主要计算硬件，其具有强大的AI计算能力和高效的内存带宽，适合大规模模型训练。每台服务器配置8张H800 GPU卡，通过NVLink实现卡间高速通信。

4.1.2 网络技术选型

项目采用RoCE技术实现高速RDMA网络，而非英伟达垄断的IB技术。RoCE技术更为通用，国产化程度更高，且能提供每GPU至少200Gbps的带宽接入，满足大规模分布式训练的需求。

4.2 训练框架选型

项目基于Megatron-LM实现分布式训练，并进行了大量自主优化。选择Megatron-LM的原因在于其对大规模模型训练的良好支持，特别是在并行训练方面的成熟设计。

项目采用4D并行策略（数据并行、张量并行、流水线并行、优化器并行），以应对超大规模模型训练的挑战。同时，通过自主开发的算子优化和框架优化，进一步提升训练效率。

4.3 推理框架选型

项目基于vLLM实现高性能推理，并进行了多项自主优化。选择vLLM的原因在于其高效的内存管理机制（如Paged KV Cache）和批处理能力，能显著提升推理性能。

通过自主开发的算子优化和框架优化，项目进一步提升了推理系统的性能，降低了延迟，提高了吞吐量。

4.4 模型架构选型

4.4.1 基础模型架构

基础大语言模型采用Transformer架构，并引入了多项创新：

分组注意力机制(Group Query Attention)：提升推理效率，扩展上下文长度
ALiBi相对位置编码：提供更好的外插特性
SwiGLU Activation算法：提高参数利用率和表达能力

未来将探索稠密Transformer和稀疏专家模型MoE等架构，以实现更大规模的模型。

4.4.2 多模态模型架构

多模态模型采用编码器-大模型-解码器的架构：

编码器：采用CLIP类图像编码器和专门的音频编码器
大模型：基于自研的中文基础大模型
解码器：采用Stable Diffusion类图像解码器和专门的音频解码器

通过连接器模块实现不同模态间的对齐和转换，使模型能够统一处理多种模态的输入和输出。

五、实施与部署规划

5.1 项目实施计划

项目实施分为两个阶段：

第一年（2023年6月-2024年5月）：

大规模智算集群建设（180台8卡A800服务器已完成，持续扩展至万卡规模）
中文基础模型训练与优化（1300亿参数，已达成国内领先水平）
多模态数据收集与清洗（中文文本700GB、图文对、图文混排、音频数据）
多模态理解能力研发（图像理解、文本理解、音频理解）
多模态生成能力研发（图像生成、文本生成、音频生成）

第二年（2024年6月-2025年5月）：

模型能力拓展（超分辨率、风格迁移、多模态向量检索、视频生成）
金融投研助手应用开发与落地
多模态大众知识科普应用开发与落地
性能调优与学术指标达成（100%学术指标达成项目预期）
项目总结与成果转化

5.2 部署架构

系统部署采用分层架构，包括：

计算层：GPU服务器集群，负责模型训练和推理
存储层：分布式存储系统，存储模型参数和训练数据
服务层：API服务和应用服务，提供模型能力的外部接口
监控层：集群监控和日志系统，确保系统稳定运行

5.3 项目管理模式

项目设置专门的管理办公室，统管项目各部门的协调和项目的实施。

资金管理：
项目款项专款专用，由项目负责人统一管理，项目管理办公室监督。设备采购由项目负责人汇总需求提出，由采购部按照相关规定统一负责采购。

进度管理：
由项目负责人协调制定统一的项目进度计划，各子项目的设计方案、实施计划上报备案，每周上报一次项目进度报告。项目管理办公室每月定期举行一次项目进度会议，并不定期进行现场项目进度检查。

质量管理：
全面加强对项目系统从设计、研发、平台搭建的全程监控，建立严格的技术档案，实行版本和编号管理，同时，制定项目实施规范和标准，必要时可聘请国内外专家参加质量检查。

六、风险分析与应对措施

6.1 技术风险

风险点：

多模态大模型技术的前瞻性可能导致实用性不确定
技术方向可能与主流发展方向产生偏离
大规模分布式训练可能面临稳定性和效率挑战

应对措施：

对目标进行充分拆解，确保阶段性成果的突破性与有效性
充分利用国内外科研机构和企业的技术交流
持续优化分布式训练框架，提高系统稳定性和效率

6.2 市场风险

风险点：

市场竞争激烈，国内外多家企业和机构都在研发多模态大模型
用户需求和市场方向可能发生变化

应对措施：

加强市场调研，密切关注行业动态
保持技术领先性，提高模型性能和用户体验
灵活调整应用方向，满足市场需求变化

6.3 人员风险

风险点：

高端AI人才稀缺，可能面临人才流失
团队协作和知识传承可能存在挑战

应对措施：

建立有竞争力的薪酬体系和职业发展通道
积极鼓励研发人员开展技术发明
充分调动和发挥技术人员的工作积极性，形成强大的凝聚力

七、经济与社会效益分析

7.1 经济效益

本项目的经济效益一方面来自于项目本身在各个行业的场景落地带来的商业价值的变现，更重要的是对涉及的行业的产业价值和经济效益的带动。项目的推进，会助力这些巨大价值的行业完成进一步的智能化升级，对关键场景的降本增效，将直接或间接带动超百亿级别的经济效益。

7.2 社会效益

本项目具有重要的社会效益：

知识普及和教育：通用多模态大模型可以为教育领域带来巨大的价值。它们能够以多种形式呈现知识，包括文字、图像和声音，从而更好地满足不同学习者的需求。这有助于提高教育的个性化程度，加强知识的普及，促进学生的学习成果。
科研和创新：通用多模态大模型提供了处理和分析多种数据类型的能力，这对于科研和创新非常关键。科学家和研究人员可以利用这些模型来分析复杂的数据，加速研究进程，推动科学的前沿。
专业服务大众化：将原本生产力受限的例如投资研究、医疗等专业服务，通过通用多模态大模型，实现低成本的向大众辐射，以满足人民日益增长的对美好生活的各项需求和向往。

八、结论与展望

阶跃星辰通用多模态图文生成理解一体化大模型是一个具有前瞻性和创新性的项目，旨在打通图像、文字、音频在生成和理解上的鸿沟，用一个模型统一三大模态，实现模型性能的本质提升。

项目采用先进的技术路线和架构设计，从基础设施、系统框架、模型设计、数据处理到应用落地，构建了完整的技术体系。通过两年的实施周期，项目将逐步实现从基础研发到产业落地的全过程，为人工智能领域的发展做出重要贡献。

未来，随着技术的不断进步和应用场景的不断拓展，阶跃星辰多模态大模型将持续演进，向着更高性能、更广应用、更深融合的方向发展，为实现通用人工智能(AGI)的目标迈出重要一步。