完全透明开源的共情语音大模型,三阶段训练,四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S
创始人
2025-07-16 10:43:03
0

紫东太初团队 投稿

量子位 | 公众号 QbitAI

GPT-4o、Gemini这些顶级语音模型虽然展现了惊人的共情对话能力,但它们的技术体系完全闭源。

现在,紫东太初团队联合长城汽车AI Lab直接把整个技术栈都开源了,推出完全透明开源的端到端共情语音语言大模型OpenS2S。

OpenS2S的核心在于提供一个高效、低成本构建共情语音系统的新范式。

它不仅继承了团队在语音到文本共情模型BLSP-Emo上的技术积累,更引入了流式交错解码架构,实现了低延迟的实时语音生成。OpenS2S提出自动化数据生成方法,结合大语言模型与可控文本到语音生成技术,构建多说话者、多情感的高质量共情语音训练语料。

最为重要的是,团队开源了构建OpenS2S所需的所有资源,包括:训练与微调数据集、数据构建代码、模型权重以及预训练和微调代码,致力于赋能更广泛的研究社区,推动共情语音系统领域的创新与发展。

表1 语音语言大模型的开源程度核心贡献

1. 模型的构建与训练

OpenS2S 基于先进的框架构建了高效的端到端语音到语音共情对话模型,并使用高质量数据进行训练。该模型能够为人类与人工智能提供更便捷、更自然的交互方式。

2. 共情语音指令数据集的自动化构建

OpenS2S提出了一种自动化的数据增强方法,融合了大语言模型(LLMs)与文本到语音(TTS)技术的优势,专为共情语音对话而设计。借助LLMs生成丰富多样的用户提问与共情回应,再通过语音克隆技术确保说话者身份的多样性。更重要的是,该技术实现了对语音情感表达的精准控制,能够以极低的人力成本,构建出内容丰富、高质量的训练数据集,为共情语音系统的发展注入强大动力。

3. 全面开源发布

为促进学术合作与推动共情大规模语音语言模型(LSLMs)领域的快速创新,OpenS2S完整开源了所有核心资源。包括模型权重、数据集构建代码、预训练与微调代码、评估工具及合成数据集,致力于为研究社区提供完全透明、可复现的研究基础,助力共情语音技术的持续突破。

技术方案

OpenS2S 采用模块化设计,包含四大核心组件:

- 音频编码器:基于Qwen2-Audio编码器,高效提取音频波形中的语义与非语言特征。

- 指令遵循大语言模型(LLM):选用Qwen3-8B-Instruct,发挥其强大的文本理解与处理能力,实现精准指令解析。

- 流式语音解码器:借鉴Minmo与LLaMA-Omni2,采用监督语义语音分词器将语音响应离散化为token,随后通过自回归文本到语音模型生成连续语音token,实现低延迟流式生成。

- Token2Wav解码器:将生成的语音token转换为最终语音波形,分块感知因果流匹配模型及HiFi-GAN声码器均采用 GLM-4-Voice 中的预训练组件,保证语音质量自然流畅。

**△图1 OpenS2S架构示意图

数据构建过程:

首先,利用强大的LLMs生成多样化且富有共情色彩的用户查询及其对应的回应,确保了对话内容的丰富性和真实性。

接着,通过引入语音克隆技术,进一步丰富了数据集的语音多样性,使其能够模拟不同说话者的声音。

更进一步,借助InstructTTS技术,模型能够对语音回应中的情感表达进行精确控制,使合成的语音不仅语义连贯,更能在情感层面自然地传递共情。

通过这一自动化流程,OpenS2S实现了以极低的成本合成出大量高质量、具备语言多样性的共情语音对话数据,并且仅需少量人工监督,从而为模型学习富有共情的人机交互提供了坚实且可扩展的训练基础。

图2共情语音指令数据集构建的自动化流程

训练流程分为三阶段:

语音理解预训练、语音生成预训练及共情语音指令微调,全面提升模型对语音语义和非语言线索的感知能力,最终实现自然且富有共情的语音响应生成。

**△图3 OpenS2S训练过程示意图实验结果

端到端语音到语音共情交互相对难以评测,按照两阶段的方式,先进行语音到文本的评测,再展示语音到语音的共情交互样例。

语音到文本评测能够验证模型的语音指令遵循能力、语义和情感理解能力。在语音到文本的交互能力评估中,OpenS2S在VoiceBench的四个子集上取得了优异成绩,其表现仅次于Kimi-Audio(基于超大规模语音数据训练),优于其他所有模型。

这表明OpenS2S拥有强大的语音交互能力,能够高效理解用户的语音指令输入。此外,在URO-Bench的共情评估子集上,尽管训练数据量远少于现有最先进模型,OpenS2S依然取得了很好的表现。

这不仅验证了OpenS2S的共情交互能力,也充分体现了其创新共情语音对话数据生成方法的高质量和有效性。

表2 OpenS2S与其他模型在语音到文本交互基准测试中的性能对比。

在GitHub页面上还展示了若干语音到语音的共情对话样例。从例子中可以深切感受到模型对于用户的精准理解和共情能力。

论文地址:https://arxiv.org/pdf/2507.05177

Demo样例地址:https://casia-lm.github.io/OpenS2S

代码地址:https://github.com/CASIA-LM/OpenS2S

数据地址:https://huggingface.co/datasets/CASIA-LM/OpenS2S_Datasets

模型地址:https://huggingface.co/CASIA-LM/OpenS2S

相关内容

热门资讯

女生失恋心痛的签名 有关女生失... 失恋,对女生来说,是件很伤感的事情,有哪些签名是与女生失恋心痛有关的呢?下面请欣赏太阳教育网为大家带...
黄杨钿甜耳环购自深圳水贝 【#黄杨钿甜耳环购自深圳水贝#】#黄杨钿甜耳环火彩系闪光灯效果#据封面新闻,“耳环是朋友送的小饰品,...
忧伤的签名 表达一个人忧伤的签... 当一个处于孤独的状态时,会莫名地感到忧伤,如何用一句签名来表达一个人忧伤时的心情呢?下面请欣赏太阳教...
女生忧郁的签名 与女生忧郁有关... 对于感性的女生来说,有时会莫名地感到忧郁,有哪些签名是与女生忧郁有关的呢?下面请欣赏太阳教育网为大家...
4000亿美元!“美国狮子大开... 【文/观察者网 齐倩】面对美国总统特朗普25%的最新税率威胁,韩国着急在8月1日限期前达成协议。但韩...