AudioLCM:浙江大学与阿里巴巴联合推出的高质量文本到音频生成模型

原创 2025-01-13 10:05:08新闻资讯
437

文本到音频生成(Text-to-Audio Generation, 简称 TTA)作为生成任务的一个子领域,涵盖了音效创作、音乐创作和合成语音,具有广泛的应用潜力。在影视后期制作、电子游戏开发、音频编辑等领域,高质量的文本到音频生成模型能够显著提高工作效率和创作质量。然而,传统的潜在扩散模型(Latent Diffusion Models, LDMs)尽管在多个生成任务中表现卓越,但其迭代采样过程带来了巨大的计算负担,导致生成速度缓慢,限制了它们在实际 TTA 应用中的部署。为了解决这一问题,浙江大学与阿里巴巴联合提出了一种新型的高效高质量文本-音频生成模型——AudioLCM。

AudioLCM.webp

一、AudioLCM是什么

AudioLCM 是一种基于一致性模型(Consistency Models, CMs)和潜在扩散模型(LDMs)的新型文本到音频生成模型。该模型通过集成一致性模型到生成过程中,并引入多步常微分方程(multi-step ODE)求解器的指导一致性蒸馏技术,极大地提高了生成速度和音频质量。同时,AudioLCM 还集成了 LLaMA 开创的先进技术,增强了基于 Transformer 的神经网络架构,进一步提升了模型的性能和训练稳定性。

二、功能特色

  • 高效生成:AudioLCM 通过集成一致性模型,避免了传统 LDMs 依赖迭代过程去除噪声的缺点,实现了快速推理。实验结果显示,AudioLCM 仅需 2 次迭代即可合成高保真音频,同时保持了与使用数百步的最先进模型竞争的样本质量。在单个 NVIDIA 4090Ti GPU 上,AudioLCM 实现了超越实时 333 倍的采样速度,使生成模型在文本到音频生成部署中实际可行。

  • 高质量输出:AudioLCM 通过引入多步 ODE 求解器进行单阶段的指导一致性蒸馏,克服了 LDMs 固有的收敛问题,减少了迭代步骤,同时保持了样品质量。实验结果显示,AudioLCM 生成的音频样本在频谱和分布上与真实音频的差异最小,证明了其高质量的输出能力。

  • 强大的文本到音频合成性能:AudioLCM 通过集成 LLaMA 的先进技术,增强了基于 Transformer 的神经网络架构,提供了更高的性能和训练稳定性。这使得 AudioLCM 在文本到音频合成任务中表现出色,能够生成自然、准确的音频样本。

  • 易于使用和扩展:AudioLCM 的代码已经开源,用户可以在 GitHub 上获取。仓库中包含了详细的指南和脚本,方便用户快速上手和扩展。同时,AudioLCM 支持多种数据集和预训练模型,用户可以根据需要进行选择和调整。

三、技术细节

  • 一致性模型(CMs)的集成:AudioLCM 通过将一致性模型集成到生成过程中,实现了快速推理。一致性模型通过将任意时间步的任何点映射到轨迹的初始点,避免了因为减少反向迭代导致感知质量显著下降的问题。这使得 AudioLCM 在保持高质量输出的同时,显著提高了生成速度。

  • 多步常微分方程(ODE)求解器的引入:为了克服 LDMs 的收敛问题并减少迭代步骤,AudioLCM 引入了多步 ODE 求解器进行单阶段的指导一致性蒸馏。这项创新在保持样品质量的同时,大幅度缩短了时间步长,从数千步减少到数十步,实现了快速的收敛。

  • 增强的 Transformer-based 骨干网络:AudioLCM 通过集成 LLaMA 的先进技术,增强了基于 Transformer 的神经网络架构。这些技术包括预归一化、旋转嵌入和 SwiGLU 激活等,为量身定制的因果变压器架构提供了更高的性能和训练稳定性。这使得 AudioLCM 在文本到音频合成任务中表现出色。

  • 反向扩散过程的 PF-ODE 重定义:为了减少计算开销并提升性能,AudioLCM 重新定义了反向扩散过程的 PF-ODE。引入一致性函数,将一致性噪声预测模型参数化以满足边界条件。通过利用 DDIM 作为 ODE 求解器在训练时确切估计音频潜在变量的演变,AudioLCM 实现了快速收敛和高质量生成。

AudioLCM2.webp

四、应用场景

AudioLCM 作为一种高效高质量的文本到音频生成模型,具有广泛的应用场景。以下是几个典型的应用场景:

  • 影视后期制作:在影视后期制作中,AudioLCM 可以用于生成各种音效和音乐。例如,通过输入文本描述,AudioLCM 可以快速生成符合剧情需求的背景音乐和特效音效,提高影视作品的制作效率和质量。

  • 电子游戏开发:在电子游戏开发中,AudioLCM 可以用于生成游戏中的音效和背景音乐。通过输入游戏场景和角色的文本描述,AudioLCM 可以快速生成符合游戏氛围的音效和背景音乐,增强游戏的沉浸感和代入感。

  • 音频编辑:在音频编辑领域,AudioLCM 可以用于生成各种语音样本和音效。例如,通过输入文本描述,AudioLCM 可以快速生成符合需求的语音样本和音效素材,为音频编辑工作提供便利。

  • 语音合成:AudioLCM 还可以用于语音合成领域。通过输入文本描述,AudioLCM 可以生成自然、准确的语音样本,为语音合成技术提供新的解决方案。

AudioLCM3.webp

六、相关链接

  • AudioLCM 论文链接:https://arxiv.org/html/2406.00356

  • AudioLCM 代码仓库链接:https://github.com/liuhuadai/AudioLCM

七、总结

AudioLCM 是一种基于一致性模型和潜在扩散模型的新型文本到音频生成模型。该模型通过集成一致性模型到生成过程中,并引入多步常微分方程求解器的指导一致性蒸馏技术,实现了高效高质量的文本到音频生成。AudioLCM 在影视后期制作、电子游戏开发、音频编辑和语音合成等领域具有广泛的应用前景。随着技术的不断发展和完善,AudioLCM 有望在更多领域发挥重要作用,为文本到音频生成技术的发展带来新的突破。

文字生成音频 ai生成音频 ai模型
THE END
ai资讯
关注ai行业发展,专注ai软件推荐。

相关推荐

HunyuanVideo-Foley:腾讯混元团队开源的一款端到端视频音效生成模型
HunyuanVideo-Foley 是腾讯混元团队研发并开源的一款端到端视频音效生成模型,其核心使命是通过人工智能技术,为无声视频自动生成高质量、高同步的音效与背景音乐,打造真正意...
2025-08-29 新闻资讯
627

Seed-OSS:原生512K长上下文与可控推理的开源大语言模型
一、Seed-OSS是什么?Seed-OSS是字节跳动Seed团队开源的大语言模型系列,标志着字节跳动首次进军开源大模型赛道。这一系列模型以其360亿参数的规模、原生512K超长上下文支持...
2025-08-22 新闻资讯
642

AudioGenie:多模态输入驱动的无训练多智能体音频生成框架
AudioGenie 是由腾讯AI Lab与香港科技大学(广州)联合研发的无需训练的多智能体系统,专注于多模态到多音频生成(MultiModality-to-MultiAudio, MM2MA)任务。它能够从视频、...
2025-08-19 新闻资讯
528

RynnEC:阿里达摩院开源的一款专为具身智能设计的世界理解模型
RynnEC是阿里巴巴达摩院开源的一款专为具身智能设计的世界理解模型,属于多模态大语言模型(MLLM)范畴。其核心目标是赋予AI系统对物理世界的深度理解能力,使机器人或智能体...
2025-08-13 新闻资讯
547

RynnVLA-001:基于视频生成与人体轨迹预训练的视觉-语言-动作模型
RynnVLA-001是阿里巴巴达摩院自主研发并开源的视觉-语言-动作(Vision-Language-Action, VLA)模型,专为具身智能(Embodied AI)场景设计。该项目通过大规模第一人称视角视频...
2025-08-13 新闻资讯
598

GPT-OSS:OpenAI开源的高效稀疏激活大语言模型
GPT-OSS(Open-Source Series)是OpenAI发布的两款开源大型语言模型系列,包括GPT-OSS-120B和GPT-OSS-20B两个版本。这是OpenAI自2019年发布GPT-2以来,时隔6年首次回归开源阵...
2025-08-07 新闻资讯
594