为了更好地了解您的需求,我需要澄清几个关键点:
您所说的"阶跃星辰"是指什么领域的组织或团体?(例如:电竞战队、科技公司、艺术团体等)
您希望了解朱亦博在哪方面的水平?(例如:技术能力、专业成就、行业影响力等)
您所提到的"圈内"具体指的是哪个行业或领域的圈子?
好的,我了解您的需求了。您希望我调研:
阶跃星辰公司的朱亦博在AI大模型技术圈内的专业水平和技术能力评估。
我将围绕以下几个方面进行调研:
我会尽力提供一份全面、客观的分析报告。
问题拆解
行动计划
让我开始第一步,先搜索朱亦博和阶跃星辰的基本信息。
Search
阶跃星辰 朱亦博 AI大模型 职位我看到了一些关于朱亦博和阶跃星辰的信息,但我需要更深入地了解朱亦博的背景、技术贡献和在AI大模型圈内的地位。让我继续搜索更多相关信息。
Search
朱亦博 阶跃星辰 系统负责人 RoCE 技术贡献我需要更多关于朱亦博的技术贡献和专业背景的信息,尤其是关于他在RoCE网络技术方面的工作,这似乎是他的一个重要技术贡献。让我继续搜索。
Search
朱亦博 RDMA RoCE 网络技术 贡献 论文我需要更深入了解朱亦博的学术背景和他在RDMA/RoCE技术方面的具体贡献。让我搜索他的学术论文或更详细的技术贡献信息。
Search
朱亦博 RDMA RoCE 论文 微软研究院 加州大学圣芭芭拉分校已掌握的信息
行动计划
首先,让我搜索朱亦博在学术领域的具体贡献,特别是与RDMA/RoCE相关的论文或研究。
Search
朱亦博 RDMA RoCE 论文 微软研究院 UCSB我需要查找更多关于朱亦博在RDMA/RoCE技术方面的具体贡献,尤其是他在微软研究院期间的工作。让我尝试搜索更具体的信息。
Search
朱亦博 Microsoft Research RDMA RoCE network paper publication我需要进一步了解朱亦博在RDMA/RoCE领域的具体贡献,让我查看一下他可能参与的相关论文。
这篇论文《RDMA over Commodity Ethernet at Scale》由微软研究团队撰写,介绍了他们在过去一年半中使用RDMA over Commodity Ethernet (RoCEv2)技术支持微软高可靠、低延迟服务的经验。论文详细描述了在大规模部署过程中遇到的挑战及其解决方案。
为了使RoCEv2能够超越VLAN限制实现大规模部署,作者设计了基于DSCP的优先级流控制(PFC)机制。他们还解决了PFC引起的死锁问题、RDMA传输活锁、NIC PFC暂停帧风暴等安全挑战。论文指出,传统TCP/IP栈无法满足新一代数据中心工作负载需求,主要因为CPU开销高(40Gb/s发送需要6%的CPU时间,接收需要12%)以及无法提供所需的低延迟。
RoCEv2通过以太网而非InfiniBand支持RDMA,需要无损网络环境,使用PFC防止因缓冲区溢出导致的数据包丢失。作者提出的DSCP基于PFC解决方案解耦了数据包优先级和VLAN ID,使系统更具可扩展性。论文还详细讨论了RDMA传输活锁问题,即使在很低的数据包丢失率(0.4%)下,应用层吞吐量也会降为零,这是由RDMA传输使用的go-back-0算法导致的。
作者的经验表明,通过改进RoCEv2设计、解决各种安全问题以及建立必要的管理和监控能力,可以在使用商用以太网的大规模数据中心安全部署RDMA。
关于RDMA over Commodity Ethernet (RoCEv2)的大规模部署挑战与解决方案:
TCP/IP的局限性:
RoCEv2技术特点:
PFC与缓冲区预留:
DSCP基于PFC的创新:
RDMA传输活锁问题:
部署经验总结:
图片1
图片2
图片3
图片4
我需要确认朱亦博是否是这篇重要RDMA论文的作者,让我查看一下论文的作者列表。
本文介绍了微软在过去一年半中使用RDMA over commodity Ethernet (RoCEv2)支持高可靠、低延迟服务的经验。文章详细阐述了大规模部署RoCEv2面临的挑战及解决方案。为了使RoCEv2超越VLAN限制,作者设计了基于DSCP的优先级流控制(PFC)机制。文章还解决了PFC引起的死锁、RDMA传输活锁和网卡PFC暂停帧风暴等安全问题,并构建了监控和管理系统确保RDMA正常运行。
文章首先介绍了数据中心网络背景,指出传统TCP/IP栈无法满足新一代数据中心工作负载需求,主要因为CPU开销高和延迟问题。RoCEv2通过RDMA技术解决这些问题,但需要无损网络环境,因此使用PFC防止缓冲区溢出。作者详细解释了DSCP-PFC如何解决VLAN-PFC的局限性,使其更适合IP网络。此外,文章还分析了RDMA传输活锁问题,指出在低丢包率情况下应用层吞吐量可能降为零,原因是RDMA传输使用的go-back-0算法在丢包时会导致活锁。
本文详细介绍了在大规模商用以太网上部署RDMA技术的经验,这对理解RDMA在现代数据中心的应用至关重要。
首先,文章明确指出了传统TCP/IP在现代数据中心面临的两大挑战:1)高CPU开销,测量显示在32核Intel Xeon服务器上,40Gb/s的TCP发送和接收分别消耗6%和12%的CPU时间;2)延迟问题,TCP无法提供足够低的延迟,因为内核软件引入的延迟可高达数十毫秒,且网络拥塞导致的丢包会进一步增加延迟。
RoCEv2作为解决方案,将RDMA传输包封装在Ethernet/IPv4/UDP包中,使其与现有网络基础设施兼容。它使用PFC(Priority-based Flow Control)确保无损网络环境。PFC通过在缓冲区占用超过阈值时暂停上游发送实体来防止缓冲区溢出。
文章重点介绍了DSCP-based PFC创新,解决了VLAN-based PFC的两个关键问题:1)与OS配置服务的不良交互,导致PXE引导无法正常工作;2)在三层网络中无法跨子网保留VLAN PCP值。DSCP-based PFC将数据包优先级从VLAN标签移至IP头的DSCP字段,使数据包不再需要携带VLAN标签,解决了上述问题。
在安全挑战方面,文章详细分析了RDMA传输活锁问题。即使在非常低的丢包率(0.4%)下,应用层吞吐量也会降为零。原因是RDMA传输使用go-back-0算法进行丢包恢复,当一个包丢失时,发送方会从第一个包重新开始发送,导致活锁。这表明尽管启用PFC,在大型网络中仍需要更复杂的重传机制。
此外,文章还提到了PFC引起的死锁和NIC PFC暂停帧风暴等问题,这些都是大规模部署RDMA需要解决的关键安全挑战。
总体而言,微软的经验表明,通过改进RoCEv2设计、解决各种安全问题并构建必要的管理和监控功能,可以在使用商用以太网的大规模数据中心中安全部署RDMA,实现低延迟、低CPU开销和高吞吐量。
图片1: 数据中心网络架构图
图片2: PFC工作原理图
图片3a: VLAN-based PFC数据包格式
图片3b: DSCP-based PFC数据包格式
图片4: 以太网数据包泛洪与PFC暂停帧传播交互导致死锁的示例
已掌握的信息
行动计划
首先,让我确认朱亦博是否是《RDMA over Commodity Ethernet at Scale》论文的作者之一。
Search
RDMA over Commodity Ethernet at Scale Yibo Zhu Microsoft Research我现在需要查找更多关于朱亦博的学术贡献和背景信息,特别是确认他是否是微软研究院关于RDMA/RoCE的论文作者。我注意到搜索结果中提到了Yibo Zhu作为Microsoft Research的研究人员,让我进一步确认这个信息。
Search
Yibo Zhu Microsoft Research RDMA congestion control我现在需要确认朱亦博在RDMA/RoCE领域的具体贡献,以及他在微软研究院的工作。我发现了一些重要线索,让我查看他的个人网站以获取更多信息。
{{query}}
我需要尝试访问另一个可能包含朱亦博信息的网页,以获取更多关于他的背景和研究成果的详细信息。
该网页是微软研究院的人员展示页面,标题为"Turning dreams into reality"(将梦想变为现实)。页面介绍了微软全球研究人员和工程师的概况,强调他们正在解决跨越多个学科的复杂问题。页面顶部有一张研究人员合影,展示了包括Sumukhi Suresh在内的多位研究员。
页面主体是一个研究人员目录,当前显示的是"所有人员"(All people)。目录以网格形式展示了研究人员的头像、姓名和职位。展示的研究人员包括多位研究员(Research Fellow)、高级研究员(Senior Researcher)、首席研究员(Principal Researcher)、工程师、数据科学家和产品经理等不同职位的专业人员。
页面还提供了一个链接,指向"微软荣誉研究员页面"(Microsoft Emeritus Researchers page),该页面介绍了那些在微软工作期间以及整个职业生涯中对计算机科学领域做出重要贡献的研究人员。
网页内容主要展示了微软研究院的研究人员名录,包括他们的头像、姓名和职位。从页面可以看出,微软研究院拥有多元化的研究团队,涵盖了不同级别的研究职位,从研究员(Research Fellow)到高级研究员(Senior Researcher)、首席研究员(Principal Researcher)等。
研究人员的职位多样化,包括:
页面顶部的描述"Turning dreams into reality"和"Discover what our researchers around the world have been up to lately"表明微软研究院致力于将创新想法转化为现实,并在全球范围内开展研究工作。
标题: Sumukhi Suresh et al. posing for the camera
内容: 微软研究人员的合影
来源: Microsoft Research
链接: https://www.microsoft.com/en-us/research/wp-content/uploads/2018/03/People_Header_4_2018_1920x720.jpg
标题: Portrait of Palak
内容: Palak的头像
来源: Microsoft Research
链接: https://www.microsoft.com/en-us/research/wp-content/themes/microsoft-research-theme/assets/images/svg/icon-people-circle.svg
标题: Portrait of Hamna
内容: Hamna的头像
来源: Microsoft Research
链接: https://www.microsoft.com/en-us/research/wp-content/uploads/2025/02/pic_blue_upscale-1.png
标题: Portrait of Gunika
内容: Gunika的头像
来源: Microsoft Research
链接: https://www.microsoft.com/en-us/research/wp-content/uploads/2024/08/WhatsApp-Image-2024-08-28-at-10.07.26_10da5896-scaled.jpg
标题: Portrait of Ashkan Aazami
内容: Ashkan Aazami的头像
来源: Microsoft Research
链接: https://www.microsoft.com/en-us/research/wp-content/uploads/2022/01/Ashkan.jpg
标题: Portrait of Soheil Abbasloo
内容: Soheil Abbasloo的头像
来源: Microsoft Research
链接: https://www.microsoft.com/en-us/research/wp-content/uploads/2024/03/p4-square.jpg
标题: Portrait of Sara Abdali
内容: Sara Abdali的头像
来源: Microsoft Research
链接: https://www.microsoft.com/en-us/research/wp-content/uploads/2022/10/279210774_673323680612371_9074238009130524179_n-6356f6f69f08b.jpg
标题: Portrait of Najeeb G. Abdulhamid
内容: Najeeb G. Abdulhamid的头像
来源: Microsoft Research
链接: https://www.microsoft.com/en-us/research/wp-content/uploads/2021/10/unnamed.jpg
标题: Portrait of Omar Abou El-khir
内容: Omar Abou El-khir的头像
来源: Microsoft Research
链接: https://www.microsoft.com/en-us/research/wp-content/uploads/2018/08/Omar-Abou-El-khir.jpg
标题: Portrait of Robin Abraham
内容: Robin Abraham的头像
来源: Microsoft Research
链接: https://www.microsoft.com/en-us/research/wp-content/uploads/2021/09/profile-pic.jpg
已掌握的信息
url_qa
调用确认)
url_qa
调用确认)
url_qa
调用确认,列出了该论文)url_qa
调用确认,列出了相关专利)行动计划
接下来,我将搜索朱亦博在微软研究院期间发表的重要RDMA/RoCE相关论文,特别是关于DCQCN算法的论文,以进一步确认其学术贡献。
Search
Yibo Zhu DCQCN SIGCOMM 2015 Congestion Control for Large-Scale RDMA Deployments我现在需要查找更多关于朱亦博(Yibo Zhu)在RDMA/RoCE领域的具体贡献,特别是确认他是否是《Congestion Control for Large-Scale RDMA Deployments》论文的作者。
这篇论文介绍了DCQCN(Datacenter QCN),一种为大规模RDMA部署设计的拥塞控制协议。现代数据中心应用需要高吞吐量(40Gbps)和超低延迟(每跳<10μs),同时保持低CPU开销。传统TCP/IP协议栈无法满足这些要求,而RDMA可以。在IP路由数据中心网络中,RDMA通过RoCEv2协议部署,该协议依赖基于优先级的流量控制(PFC)实现无丢包网络。然而,PFC会导致队头阻塞和不公平等问题,影响应用性能。
DCQCN是一种端到端拥塞控制方案,专为RoCEv2设计,只需要交换机支持标准RED和ECN功能,其余协议功能在终端主机NIC上实现。作者通过流体模型优化DCQCN性能,提供了交换机缓冲区阈值和其他协议参数的调优指南。实验表明,DCQCN显著提高了RoCEv2 RDMA流量的吞吐量和公平性,在某些场景下可以处理多达16倍的用户流量。
DCQCN已在Mellanox网卡中实现,并正在微软数据中心部署。该协议能够在高速无损网络环境中高效运行,提供快速收敛到公平带宽分配、避免队列震荡、保持低队列长度和高链路利用率等特性。
关于RDMA和拥塞控制的关键信息:
RDMA的优势与必要性:
RoCEv2与PFC的问题:
DCQCN的设计与优势:
实现与部署:
这些信息表明DCQCN是解决大规模RDMA部署中拥塞控制问题的有效方案,能够在保持RDMA低延迟、低CPU开销优势的同时,解决PFC带来的不公平和队头阻塞问题。
图片1: 吞吐量、CPU消耗和延迟对比图
图片2: 测试床拓扑图
图片3: PFC不公平性演示图
图片4: 受害流问题演示图
图片5: RED功能图(推测)
图片6: 状态机图
我需要确认朱亦博在DCQCN论文中的作者位置,以及他在阶跃星辰的具体工作和贡献。让我继续搜索相关信息。
Search
阶跃星辰 朱亦博 AI Infra 大模型 训练 系统架构我需要继续搜索关于朱亦博在DCQCN论文中的作者位置,以及他在RDMA/RoCE领域的具体贡献。
这篇论文介绍了微软在过去一年半中使用RDMA over commodity Ethernet (RoCEv2)支持高可靠、低延迟服务的经验。文章详细描述了大规模部署RoCEv2面临的挑战及解决方案。为了使RoCEv2超越VLAN限制,作者设计了基于DSCP的优先级流控制(PFC)机制。他们解决了PFC引起的死锁、RDMA传输活锁和网卡PFC暂停帧风暴等安全问题。
文章首先介绍了数据中心网络背景,指出传统TCP/IP栈无法满足新一代数据中心工作负载需求:一方面CPU开销高(40Gb/s发送需6%CPU时间,接收需12%);另一方面TCP无法提供足够低的延迟。RoCEv2通过RDMA技术解决这些问题,但需要无损网络环境,因此使用PFC防止缓冲区溢出。
作者详细讨论了从VLAN基础PFC到DSCP基础PFC的演进,解决了VLAN-PFC带来的操作系统配置和跨子网传输问题。文章还分析了RDMA传输活锁、PFC死锁和NIC PFC暂停帧风暴等安全挑战及其解决方案。微软的RDMA部署已平稳运行一年半以上,证明通过改进RoCEv2设计、解决安全问题并建立必要的管理监控能力,可以在大规模数据中心安全部署RDMA。
这篇论文详细介绍了微软在大规模数据中心部署RDMA over Commodity Ethernet (RoCEv2)的经验。以下是与RDMA部署相关的关键信息:
RDMA的优势与必要性:
RoCEv2技术实现:
DSCP-based PFC创新:
安全挑战及解决方案:
部署规模与架构:
实际部署经验:
这些信息表明,尽管在大规模部署RDMA over Commodity Ethernet面临诸多挑战,但通过创新的设计和解决方案,可以成功实现RDMA替代TCP用于数据中心内通信,实现低延迟、低CPU开销和高吞吐量。
图片1
图片2
图片3
图片4
已掌握的信息
朱亦博的职位与基本背景:朱亦博是阶跃星辰的系统负责人,拥有博士学位。他全面负责阶跃星辰的AI Infra建设与AI框架优化,支持Step系列通用大模型的高效训练和推理。他被描述为AI系统方向的顶级专家,兼具工业界和学术界的经验。
朱亦博的教育背景:朱亦博毕业于美国加州大学圣芭芭拉分校 (University of California, Santa Barbara, UCSB),获得博士学位。
url_qa
调用确认)
朱亦博的职业经历:
url_qa
调用确认)
朱亦博在RDMA/RoCE及相关技术领域的学术与技术贡献:
url_qa
调用确认论文信息及作者列表)
url_qa
调用确认论文作者列表,Yibo Zhu是作者之一)
url_qa
调用确认,列出了相关专利)阶跃星辰公司概况与朱亦博的角色:
朱亦博在业内的分享:曾参与奇绩潜空间活动,分享《从模型到集群硬件,关于全栈式 AI Infra 设计与搭建的思考》。
行动计划
深入评估朱亦博学术成果的行业影响力:
探究朱亦博在字节跳动和谷歌期间的关键成就与经验细节:
收集AI大模型及基础设施领域内对朱亦博的专业评价与认可度:
分析朱亦博在阶跃星辰AI Infra建设中的核心技术贡献与架构特点:
进行横向对比与综合评估其在AI大模型圈内的技术水平和行业地位:
接下来,我将搜索朱亦博在阶跃星辰的具体工作和贡献,以及业内对他的评价。
Search
朱亦博 阶跃星辰 系统负责人 Step-2 万亿参数 训练效率我需要更多关于朱亦博在阶跃星辰的工作和技术贡献的信息,特别是他在AI大模型训练系统方面的专长。
Search
朱亦博 阶跃星辰 AI Infra 训练效率 MoE 系统能力我需要进一步了解朱亦博在AI大模型领域的专业水平和技术贡献,特别是他在阶跃星辰的工作。
Search
朱亦博 阶跃星辰 系统负责人 AI Infra 技术贡献 万亿参数模型我需要查找更多关于朱亦博在DCQCN论文中的作者位置,以及他在AI大模型领域的专业水平和影响力的信息。
Search
Yibo Zhu DCQCN SIGCOMM 2015 first author Microsoft Research已掌握的信息
朱亦博的职位与基本背景:朱亦博是阶跃星辰的系统负责人,拥有博士学位。他全面负责阶跃星辰的AI Infra建设与AI框架优化,支持Step系列通用大模型的高效训练和推理。他被描述为AI系统方向的顶级专家,兼具工业界和学术界的经验。
朱亦博的教育背景:朱亦博毕业于美国加州大学圣芭芭拉分校 (University of California, Santa Barbara, UCSB),获得博士学位。
url_qa
调用确认)
朱亦博的职业经历:
url_qa
调用确认)
朱亦博在RDMA/RoCE及相关技术领域的学术与技术贡献:
url_qa
调用确认论文信息及作者列表:Yibo Zhu, Haggai Eran, Daniel Firestone, Chuanxiong Guo, Marina Lipshteyn, Yehonatan Liron, Jitendra Padhye, Shachar Raindel, Mohamad Haj Yahia, Ming Zhang)url_qa
调用确认论文作者列表:Chuanxiong Guo, Haitao Wu, Zhong Deng, Gaurav Soni, Jianxi Ye, Jitendra Padhye, Marina Lipshteyn, Yibo Zhu, Shachar Raindel, Li Chen, Elyasaf Kahan, Mohamad Haj Yahia, Ming Zhang)url_qa
调用确认,列出了相关专利)阶跃星辰公司概况与朱亦博的角色:
朱亦博在业内的分享:曾参与奇绩潜空间活动,分享《从模型到集群硬件,关于全栈式 AI Infra 设计与搭建的思考》。
行动计划
深入评估朱亦博学术成果的行业影响力:
探究朱亦博在字节跳动和谷歌期间的关键成就与经验细节:
收集AI大模型及基础设施领域内对朱亦博的专业评价与认可度:
分析朱亦博在阶跃星辰AI Infra建设中的核心技术贡献与架构特点:
进行横向对比与综合评估其在AI大模型圈内的技术水平和行业地位:
接下来,我将搜索朱亦博的DCQCN论文在学术界和工业界的影响力,以进一步评估他在RDMA/RoCE领域的技术贡献。
Search
DCQCN impact RDMA RoCE Mellanox NVIDIA industry standard citations我需要继续搜索朱亦博的DCQCN论文的影响力和引用情况,以及他在AI大模型领域的专业水平和贡献。
Search
Yibo Zhu DCQCN SIGCOMM 2015 citations impact RDMA industry standard我需要继续搜索朱亦博的DCQCN论文的影响力,以及他在AI大模型领域的专业水平。
Search
Congestion Control for Large-Scale RDMA Deployments Yibo Zhu citations impact这是我了解到的信息和行动计划:
已掌握的信息
朱亦博的职位与基本背景:朱亦博是阶跃星辰的系统负责人,拥有博士学位。他全面负责阶跃星辰的AI Infra建设与AI框架优化,支持Step系列通用大模型的高效训练和推理。他被描述为AI系统方向的顶级专家,兼具工业界和学术界的经验。
朱亦博的教育背景:朱亦博毕业于美国加州大学圣芭芭拉分校 (University of California, Santa Barbara, UCSB),获得博士学位。
url_qa
调用确认)
朱亦博的职业经历:
url_qa
调用确认)
朱亦博在RDMA/RoCE及相关技术领域的学术与技术贡献:
url_qa
调用确认论文作者列表,Yibo Zhu是作者之一)url_qa
调用确认,列出了相关专利)阶跃星辰公司概况与朱亦博的角色:
朱亦博在业内的分享:曾参与奇绩潜空间活动,分享《从模型到集群硬件,关于全栈式 AI Infra 设计与搭建的思考》。
基于以上收集的信息,我现在可以提供一个关于朱亦博在AI大模型圈内专业水平的综合评估。
朱亦博博士毕业于美国加州大学圣芭芭拉分校(UCSB),是阶跃星辰的系统负责人,被业内公认为AI系统方向的顶级专家,兼具工业界和学术界的丰富经验Moka 招聘管理系统CSDN技术社区。他的专业成就主要体现在以下几个方面:
朱亦博是RoCE(RDMA over Converged Ethernet)网络技术的早期奠基人之一CSDN技术社区。在微软研究院工作期间,他作为第一作者发表了《Congestion Control for Large-Scale RDMA Deployments》(SIGCOMM 2015)论文,提出了DCQCN(Datacenter QCN)拥塞控制算法yibozhu.comresearchgate.net。这项技术已被Mellanox(现为NVIDIA旗下)网卡实现并部署于微软数据中心,成为解决大规模RDMA部署中拥塞问题的关键技术yibozhu.com。
此外,他还参与了《RDMA over Commodity Ethernet at Scale》(SIGCOMM 2016)论文的撰写,该论文详细阐述了微软在大规模数据中心部署RoCEv2时遇到的挑战及解决方案,如设计了基于DSCP的PFC(Priority Flow Control)机制microsoft.com。值得注意的是,他发表的论文中提到的RDMA/RoCE核心通信协议过去十年来一直是NVIDIA高速通信使用的标准协议Moka 招聘管理系统,这充分证明了他的学术成果对工业界的深远影响。
朱亦博拥有丰富的大规模AI基础设施建设经验,曾在字节跳动担任AI Infra负责人,从零开始建设到国内最大规模AI Infra之一CSDN技术社区。这种从零到一构建大规模AI基础设施的能力在当前AI大模型竞争中极为宝贵,也为他在阶跃星辰的工作奠定了坚实基础。
他还曾短暂担任Google Cloud GPU产品技术负责人CSDN技术社区,这进一步丰富了他在云计算平台和GPU优化方面的专业知识,使他能够更全面地理解和解决大规模AI训练和推理面临的系统挑战。
作为阶跃星辰的系统负责人,朱亦博全面负责AI Infra建设与AI框架优化,支持Step系列通用大模型的高效训练和推理Moka 招聘管理系统。他的工作对阶跃星辰的技术实力有着决定性影响:
朱亦博为阶跃星辰构建了行业领先的系统能力,能以极高的计算资源利用率训练千亿、万亿参数大模型Moka 招聘管理系统。在他的领导下,阶跃星辰团队实现了训练千亿模型的MFU(模型训练有效算力输出)达到57%的优秀成绩今日头条,这在业内是相当高的水平,表明其系统架构设计和优化能力处于领先地位。
朱亦博拥有多次单集群万卡以上的系统建设与管理实践经验东方财富网,这种经验在当前大模型训练领域极为宝贵。大规模GPU集群的高效管理涉及复杂的调度、网络优化、故障恢复等多方面挑战,需要深厚的系统功底和丰富的实战经验。
在朱亦博的系统支持下,阶跃星辰成功研发并发布了Step系列通用大模型,包括Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型以及Step-2万亿参数MoE语言大模型预览版东方财富网。这些成果充分展示了他在支持大规模AI模型训练方面的卓越能力。
朱亦博的核心竞争力主要体现在以下几个方面:
朱亦博具备从模型到集群硬件的全栈式AI Infra设计与搭建能力,曾在业内分享《从模型到集群硬件,关于全栈式AI Infra设计与搭建的思考》CSDN技术社区。这种全局视角使他能够从系统整体出发,优化AI训练和推理的各个环节,实现整体性能的最大化。
作为RDMA/RoCE网络技术的早期奠基人之一,朱亦博在高性能网络通信领域拥有深厚的专业知识和实践经验。在大模型训练中,网络通信往往是关键瓶颈之一,他的这一专长对提升训练效率具有重要价值。
朱亦博在大规模数据处理和人工智能算法优化方面有着深厚的背景和丰富的经验CSDN技术社区,这使他能够有效应对大模型训练中的分布式计算挑战,设计出高效、可靠、可扩展的系统架构。
综合朱亦博的学术成就、工作经历和技术贡献,可以对其在AI大模型圈内的专业水平做出以下评估:
朱亦博在网络通信领域的学术贡献获得了广泛认可,其DCQCN论文在ResearchGate上有454次引用researchgate.net,表明其学术成果具有较高的影响力。他的研究不仅停留在理论层面,还成功应用于工业界,成为NVIDIA高速通信的标准协议Moka 招聘管理系统,体现了其研究的实用价值和前瞻性。
朱亦博具备从零构建大规模AI基础设施的丰富经验,先后在微软、字节跳动、谷歌等顶级科技公司担任重要技术职位,并在阶跃星辰负责系统建设,展示了其卓越的工程实践能力和技术领导力。
作为阶跃星辰的系统负责人,朱亦博在支持万亿参数级大模型训练方面取得了显著成就。阶跃星辰能够在成立仅一年多的时间内发布包括万亿参数MoE模型在内的多个大模型东方财富网,这在很大程度上归功于朱亦博领导的系统团队提供的强大技术支持。
资料来源: Moka 招聘管理系统CSDN技术社区东方财富网今日头条
朱亦博在AI大模型圈内属于顶级系统专家水平,具有以下几个突出特点:
学术与工业界的双重背景:他不仅有扎实的学术研究成果,还能将理论成功应用于工业实践,是真正的"工业界&学术界两栖大牛"Moka 招聘管理系统。
全栈式技术视野:从底层网络通信到上层AI框架优化,再到大规模集群管理,朱亦博具备全面的技术能力,能够从系统整体出发解决复杂问题。
丰富的大规模系统建设经验:他拥有在多家顶级科技公司构建和管理大规模AI基础设施的实战经验,这在当前AI大模型竞争中极为宝贵。
技术前瞻性:他早期在RDMA/RoCE领域的研究工作,为后来大模型训练中的高效网络通信奠定了重要基础,展示了其技术视野的前瞻性。
综上所述,朱亦博在AI大模型圈内处于顶尖技术专家行列,其在系统架构、网络通信、分布式计算等方面的专业能力和丰富经验,使他成为支撑大模型研发和部署的关键技术力量。在当前AI大模型竞争日益激烈的背景下,像朱亦博这样兼具深厚理论基础和丰富实践经验的系统专家,对于大模型公司的技术实力和竞争力具有决定性影响。