login
Step-Audio-AQAA 端到端语音大模型
阶跃多模态新成员!单模型实现端到端语音,实现方言情感变速哼唱全维度表达
立即试用
模型已开源:Github
Hugging Face

Step-Audio-AQAA agent-studio

完全端到端的语音大模型——Step-Audio-AQAA,旨在解决当前主流语音语言模型(LALMs)采用的「级联式」处理流程所导致的问题。这种传统方式需要将音频输入先转换为文本,经过LLM处理后再合成语音,效率低下、误差累积,且丢失了语音中的副语言信息(情感、语调等)。

Step-Audio-AQAA通过语音文本token交错架构合理的后训练,首次在1300亿参数级实现语音输入到语音输出的直接转换,核心贡献如下。

全端到端语音大模型:与级联方法不同,我们的模型 Step-Audio-AQAA 可直接从原始音频输入生成目标输出(文本 / 语音),无需借助自动语音识别(ASR)或文本到语音合成(TTS)。这种 “纯” 端到端设计不仅显著简化了系统复杂度、消除了级联错误,还通过在大规模语音 - 文本配对数据上的联合优化,展现出显著的性能提升。

细粒度语音控制能力:通过精心设计的训练策略和数据组织方法,Step-Audio-AQAA 实现了细粒度语音控制能力,支持情感基调、语速等句子级别的修改。这些能力是先前 AQTA+TTS 范式无法实现的。

在StepEval-Audio-360基准测试中,与Kimi-Audio、Qwen-Omni对比显示:

全面领先领域:语音情感控制(+23%)、创造力(+18%)、角色扮演(+15%)。

突破性优势:实现细粒度语音控制——单轮对话中动态调整语速/情感。

对比

技术亮点

架构

Step-Audio-AQAA是一种端到端的大型音频-语言模型(LALM),旨在处理音频查询并生成自然语音响应。该模型包含双码本音频分词器、一个1300亿参数的骨干LLM以及一个神经声码器,用于高保真语音合成。

方法细节:

架构:

Step-Audio-AQAA采用端到端范式,由双码本音频分词器、骨干LLM和神经声码器三个核心模块组成。

流程为:双码本音频分词器将输入音频转换为语言和语义令牌序列;骨干LLM(经SFT、DPO和模型融合后训练)生成文本和音频令牌交错的输出序列;最后,声码器从音频令牌重建高保真语音波形作为响应。

双码本音频分词器:

Step-Audio-AQAA使用语言分词器和语义分词器来增强语音特征表示。

语言分词器提取音素和语言属性等高级表示,以16.7 Hz的速率量化为1024码本大小的离散令牌。

语义分词器编码粗粒度声学特征,参考Cosy Voice 1.0,以25 Hz运行,码本大小为4096。

由于两种令牌采样率约为2:3,采用2:3交错比确保时间对齐,形成LLM的输入序列。

骨干LLM:

骨干LLM选用预训练的1300亿参数多模态LLM Step-Omni,其预训练数据涵盖文本、语音和图像。

后训练阶段仅使用Step-Omni的文本和语音能力。

Step-Omni采用解码器-only架构,双码本音频令牌首先嵌入后,通过多个Transformer块处理。

后训练阶段(包括SFT、DPO和模型融合)进一步适应AQAA任务,最终演变为Step-Audio-AQAA模型。

后训练的LLM生成文本和音频令牌以10:15比例交错的输出。在DPO后训练阶段,文本令牌被保留在输出中,以辅助目标函数收敛。

神经声码器:

生成的音频令牌通过声码器合成为自然、高质量的语音。

声码器借鉴Cosy Voice 1.0中的最优传输条件流匹配模型,采用U-Net架构,集成ResNet1D层和Transformer块,实现高效特征提取和时间建模。

训练与数据集:

LLM预训练: 与Step-Audio-AQTA一致。Step-Omni预训练数据集包含音频、文本和图像,文本数据(含图文配对和交替数据)来自网页、书籍和专有资源,总量达8000亿令牌。音频模态包含音频连续序列、文本到语音合成语音、自动语音识别数据和音频-文本交替数据。

多模态预训练分三阶段:第一阶段音频、文本和图像数据以2:1:1比例使用,参数更新主要集中在嵌入层和音频模态相关的LM头部;第二阶段引入音频-文本交错数据;第三阶段引入ASR和TTS数据。此方法确保模型在保持文本能力的同时,逐步完善多模态能力。

监督微调(SFT): 预训练后,进行两阶段SFT,使用AQTA和AQTAA格式数据。AQTA为专有数据,AQTAA基于AQTA生成,通过Step-Audio-TTS-3B模型将文本答案转换为高质量音频响应。

第一阶段SFT:预训练LLM在组合的AQTA和AQTAA数据集上更新全部参数一个epoch,以增强语义一致性和对齐输入-输出结构。

第二阶段SFT:选择高质量AQTAA数据进行训练,进一步稳定LLM的文本-音频交错输出格式并增强唱歌等能力。

目标函数为交叉熵(CE)损失,仅对响应部分的令牌计算损失。

直接偏好优化(DPO): 为使模型输出与人类偏好对齐并增强泛化能力,采用了DPO。

音频令牌掩码DPO: 发现对所有令牌应用DPO优化会导致文本和音频错位,因此在DPO过程中屏蔽了音频令牌的损失。

DPO从第一阶段SFT模型开始。

权重融合: 为整合第一阶段SFT、第二阶段SFT和DPO微调模型的不同优化目标,通过对它们的参数矩阵进行加权平均来融合。融合后的模型作为Step-Audio-AQAA的最终骨干LLM

案例分享

一、多维情绪标签,让声音 “活” 起来

除了实现基本单句情绪控制输出,模型能额外进行句内的情绪或者语速转换

query:先生气再高兴然后撒娇 讲一下中国清代历史

二、方言语言库,乡音触手可及

除了情感语速表达之后,模型还深度整合粤语、四川话、日语等热门方言及语言。无论是粤语中韵味十足的九声六调,还是四川话里诙谐幽默的方言词汇,亦或是日语中细腻婉转的敬语表达,都能原汁原味地呈现。

query:分别以粤语 日语 四川话介绍一下详细上海

query:以四川话,粤语,日语,演绎三个人初次见面打招呼。

三、智能语速调节,掌控表达节奏

在语音表达中,语速的快慢直接影响信息传递的效果和情感的抒发。端到端语音大模型提供 慢速 与 快速 等多样化语速选择。

query:背一下静夜思整首诗 超级快速 然后背一下 慢速“锄禾日当午,汗滴禾下土”

四、AI 情感哼唱,歌声自带灵魂感

AI 可根据用户指定主题或关键词后,自动生成哼唱内容。

query:AI 可根据用户指定主题或关键词后,自动生成哼唱内容。

五、自由切换语音文本模式

除了支持端到端的语音回复,在系统指令中要求用文本回复时,模型将切换至文本回复模型

query:7年前,妈妈年龄是儿子的6倍,儿子今年12岁,妈妈今年( )岁。

Response: 儿子今年12岁,那7年前就是5岁。妈妈那时候是儿子的6倍,也就是5×6=30岁。所以妈妈今年30+7=37岁。