Soul张璐带领团队发力AI语音，开源全双工对话系统核心组件_知识

Soul张璐带领团队发力AI语音，开源全双工对话系统核心组件

创始人

2026-04-03 00:31:14

近日,语音交互领域迎来重要突破。Soul创始人张璐带领团队联合上海交通大学与西北工业大学,正式开源全双工语音对话模块SoulX-Duplug。该成果通过统一建模关键技术,旨在解决传统系统响应延迟高、交互不自然的痛点,让半双工系统无需重构即可升级,实现如真人般流畅的即时对话体验。

传统的全双工探索往往陷入两难:要么采用端到端大模型,虽能模拟自然却面临训练难、数据需求巨大且策略不可控的困境;要么依赖传统的“VAD(语音活动检测)+ ASR(语音识别)+ 轮次检测”级联方案,但这种拼凑式的架构因模块间缺乏语义理解,导致响应延迟高、系统笨重。尤其是传统 VAD 仅凭声学特征判断,无法区分用户是在说话还是仅仅在思考停顿,更无法处理复杂的打断与附和场景。针对这些痛点,SoulX-Duplug 提出了一种极具前瞻性的解耦思路:将全双工控制能力从庞大的对话模型中独立出来,作为一个可扩展的专用模块。

这一设计的核心在于“文本引导的流式状态预测”。不同于以往只听得见“声音”的系统,SoulX-Duplug 能听懂“语意”。其总体架构采用了先进的 GLM-4-Voice speech tokenizer,以 12.5Hz 的高频提取离散语音令牌,并在 160 毫秒的极短窗口内,流式交替生成识别文本与对话状态令牌。通过独特的“音频令牌→识别文本→状态令牌”交替预测机制,模型能够在理解用户语义意图的同时,精准判断何时该倾听、何时该回应、何时该允许被打断。这种语义感知的 VAD 能力,让系统真正具备了“察言观色”的智慧。

为了铸就这一能力,团队设计了严谨的三阶段训练策略:从非流式 ASR 预训练夯实基础,到流式适配以应对实时场景,最后通过联合优化实现完整的全双工控制。更值得一提的是其“混合训练 - 推理”策略,即在训练时进行端到端联合优化,而在实际部署时可灵活接入 Paraformer 或 SenseVoice 等高效外部 ASR。这种设计既保证了模型的智能上限,又极大提升了工业落地的稳定性与效率。

数据是检验真理的唯一标准。在中英双语的 Full-Duplex-Bench 基准测试中,基于 SoulX-Duplug 构建的系统在轮次切换、停顿处理、用户附和及打断等关键维度上均表现卓越,其整体轮次管理能力超越了现有模型。更为惊人的是其实时性表现:在实际部署环境中,该独立模块的平均延迟仅为 250 毫秒,无限接近其 240 毫秒的理论极限。这一成绩不仅显著优于传统方案约 500 毫秒的延迟,也击败了近期推出的 FlexDuo 模块(约 343 毫秒)。这意味着,用户几乎感受不到机器的反应时间,对话如真人般顺滑。

随着SoulX-Duplug-Eval评测基准的同步上线,Soul创始人张璐带领团队正积极构建开放共研的技术生态。这不仅解决了模块耦合严重的行业难题,更为学术界提供了标准化的研究工具。期待这一成果能加速全双工技术的普及,让每一次语音交互都如面对面交谈般顺滑无间。

上一篇：Allen AI发布开源网络智能体MolmoWeb

下一篇：开源证券：给予阳光电源买入评级

Soul张璐带领团队发力AI语音，开源全双工对话系统核心组件

相关内容

热门资讯