4步出声，单卡0.24秒！Noiz AI携港科大清华，开源音频生成大模型

网易专栏8小时前发布 nxnqh

1 0 0

发布时间：2026-06-15 14:54:36

#AI | #AudioX-Turbo

来源：网易专栏作者：量子位
🔗 查看原文

🤖 AI总结

主题

AudioX-Turbo：极速音频生成大模型

摘要

AudioX-Turbo通过蒸馏技术将音频生成步数暴减至4步，配合920万强指令数据集，实现了极速、精准可控的音频生成，并全部开源。

关键信息

1 4步推理，单卡0.24秒生成10秒音频
2 920万强指令数据集实现精准时间戳控制
3 支持文本、视频、图像多模态输入

允中发自凹非寺
量子位 | 公众号 QbitAI

“先来一段蝉鸣，然后吉他声切入。”

对于这样一段看似简单的文字指令，现有的音频大模型不仅“听不懂”（搞错顺序或数量），而且“出得慢”（生成10秒声音，往往需要等待几秒甚至十几秒）。

这成了AI音频从“玩具”走向专业工作流和实时交互的最大绊脚石。

为了解决这一行业痛点，Noiz AI联合香港科技大学、清华大学等机构，正式推出了支持Anything-to-Audio的极速音频生成大模型AudioX-Turbo

AudioX-Turbo不仅仅是一个能处理多种模态输入的生成器，更是将矛头直指“极速推理”“精准可控”两大难题。

通过分布匹配蒸馏和对抗蒸馏，AudioX-Turbo将原本50-200步的扩散生成过程暴减至4步，模型前向次数骤降约25倍；

再配合全新标注的920万量级“强指令”语料，模型终于“听懂了时间戳”。

而且，推理代码、训练代码、模型权重等全部开源。

论文与项目页面：https://zeyuet.github.io/AudioX-Turbo/
项目代码：https://github.com/NoizAI/AudioX-Turbo

核心突破一：用4步打败100步，单卡0.24秒出声

现有的主流音频模型，如MMAudio，Stable Audio Open，它们多依赖Diffusion（扩散）或Flow Matching，通常需要几十到上百步迭代。

AudioX-Turbo的解法是分布匹配对抗蒸馏

1. 原生多模态骨干打底

全面采用原生适合多模态融合的Multimodal Diffusion Transformer (MMDiT)作为模型骨架，配合MAF模块从零训练了2.7B参数，确保了极高的音画同频与跨模态控制力。

4步出声，单卡0.24秒！Noiz AI携港科大清华，开源音频生成大模型
△图1.预训练阶段

2. Turbo蒸馏加速

基于Flow Matching框架，引入分布匹配蒸馏（DMD）对抗蒸馏将模型蒸馏至4步，同时应用CFG蒸馏去掉了CFG引入的额外NFE开销。

“简单说，就像把一幅需要涂100遍才能完成的画，提炼成只涂4遍的模板——AudioX-Turbo用蒸馏技术把这个‘模板’提炼出来了。”

4步出声，单卡0.24秒！Noiz AI携港科大清华，开源音频生成大模型
△图2. 分布匹配对抗蒸馏

结果惊人，AudioX-Turbo仅需4个采样步数就逼近Teacher模型100步的音质，再得益于扩散判别器，学生模型输出和真实样本的对抗训练，使少步模型在部分性能指标上反超了100步教师模型。

单张RTX 4090上，生成10秒音频仅需0.24秒（RTF仅0.02），打开了实时音频生成的想象空间。

4步出声，单卡0.24秒！Noiz AI携港科大清华，开源音频生成大模型
△图3. Audiox-Turbo对比其它模型的全面评测

核心突破二：数据大换血，920万样本让模型“听懂人话”

之前很多音频模型无法精确控制，根源在于数据里的文本标签太“糊”（比如只有简单的环境音概括）。

为此，Noiz AI与港科大团队专门打造了超大规模的多模态音频数据集IF-caps-Pro，总规模约920万

团队搭建了“大模型级联标注”的方案——

先构建海量高质量视频-音频对，然后用Gemini 2.5 Pro模型生成带时间戳、乐器、事件数量的结构化模板，再用Qwen2-Audio进行大规模扩写。

喂给模型的数据从“模糊的摘要”变成了“带有精确时间轴的剧本”

4步出声，单卡0.24秒！Noiz AI携港科大清华，开源音频生成大模型
△图4. 数据构造流程

与此同时，研究团队意外发现，文本标签写得越细，模型不仅文本生音频效果变好，连带着“只看无声视频配音”时的对齐度也跟着大幅提升。

霸榜级的实验表现

在经典的AudioCaps、MusicCaps等测试集中，4步的AudioX-Turbo模型在核心音质指标上打败或战平了需要50-200步的众多基线模型。

而为了评测模型的指令跟随能力，团队构造了专门的benchmarkT2A-bench

测试结果显示，在针对声音类别、数量、时间戳和先后顺序的评测中，AudioX-Turbo的效果对比其它基线方法呈现出碾压态势（部分指标较基线提升超一倍）。

4步出声，单卡0.24秒！Noiz AI携港科大清华，开源音频生成大模型
△图5. AudioX-Turbo的指令跟随能力

总结与传送门

AudioX-Turbo三大亮点

4步推理，相比教师模型减少25倍计算量，效果更优，RTF仅0.02（4090）；
920万强指令数据集，首次实现精确时间戳控制；
Anything-to-Audio：文本、视频、图像全支持，一个模型搞定；

该项目所有训练代码及模型权重，已全部开源。

Noiz AI与港科大、清华的这项联合工作，证明了音频大模型完全可以打破“慢吞吞”和“不受控”的刻板印象。

随着4步极速推理的实现，互动剧配音、游戏引擎实时拟音，甚至是AI直播伴奏，都将变得触手可及。

而这正是Noiz AI正在推进的方向——让音效、有声内容制作、实时互动语音，都能实时重建。

论文信息：
论文标题：AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation
核心团队：Noiz AI、香港科技大学、清华大学
项目主页：https://zeyuet.github.io/AudioX-Turbo/

网易专栏 # AI # AudioX-Turbo

文章版权归作者所有，未经允许请勿转载。

4步出声，单卡0.24秒！Noiz AI携港科大清华，开源音频生成大模型

🤖 AI总结

主题

摘要

关键信息

核心突破一：用4步打败100步，单卡0.24秒出声

核心突破二：数据大换血，920万样本让模型“听懂人话”

霸榜级的实验表现

总结与传送门

啥？Fable 5一出，Skill和Prompt都白学了？

美国禁掉 Fable 5 后，智谱暴涨 47%

相关文章

百度GenFlow 4.0发布，Office三件套全包了，还能养「牛马虾」

神秘「欢乐马」霸榜视频模型！本以为Seedance2.0已封神…

WAXAL：面向非洲语言语音技术的大规模开放资源

AWS与IBM强化大型机与云端互通，加速企业混合云转型