ai音乐生成器(StemGen):听取音乐上下文生成音乐作品

站长之家 2023-12-19 11:43:35新闻资讯
273

字节跳动AI研究团队最近推出了一项名为StemGen的音乐生成项目,该项目采用了一种创新的深度学习方法,旨在让模型能够模仿现有音乐中的模式和结构,并以一种非常前卫的方式回应音乐背景。与常用的深度学习技术(如RNN、LSTM网络和Transformer模型)不同,StemGen采用了一种非自回归、基于Transformer的模型,强调对音乐背景的听取和响应,而不是依赖于抽象的条件。

StemGen.png

研究中,来自SAMI和字节跳动公司的研究人员引入了一种非自回归、基于Transformer的模型,该模型通过利用MusicGen模型的公开可用的Encodec检查点来监听和响应音乐背景。通过使用标准度量和音乐信息检索描述符方法,包括Frechet Audio Distance(FAD)和Music Information Retrieval Descriptor Distance(MIRDD),研究团队评估了模型的性能。结果显示,该模型在音频质量和与音乐背景的稳健对齐方面表现出竞争性,经过客观度量和主观MOS测试的验证。

这项研究强调了最新在端到端音乐生成方面的进展,借鉴了图像和语言处理的技术。它强调了在音乐创作中对音频片段进行对齐的挑战,并对现有依赖于抽象条件的模型提出了批评。研究提出了一种训练范式,使用了一种非自回归、基于Transformer的架构,使模型能够对音乐背景做出响应。该方法引入了两个条件源,并将问题框架构建为条件生成。

该方法利用了一种非自回归、基于Transformer的音乐生成模型,通过在单独的音频编码模型中引入残差向量量化器。通过将多个音频通道组合成一个单一的序列元素,采用了嵌套的方法。训练过程中采用了掩码程序,并在进行令牌采样期间使用了无分类器的指导,以增强音频背景的对齐。客观度量包括Fr'echet Audio Distance和音乐信息检索描述符距离等,用于评估模型的性能。

研究团队通过使用标准度量和音乐信息检索描述符方法进行生成模型的评估,包括FAD和MIRDD。与真实音频片段的比较表明,该模型在音频质量上达到了与最先进的文本条件模型相媲美的水平,并展现出与音乐背景的强大音乐连贯性。通过参与音乐培训的参与者进行的Mean Opinion Score测试进一步验证了该模型生成逼真音乐结果的能力。MIRDD对生成和真实音频片段的分布对齐进行评估,提供了音乐连贯性和对齐的度量。

总的来说,这项研究提出了一种新的训练方法,使生成模型能够对音乐背景做出响应。该方法引入了一种非自回归语言模型,具有Transformer骨干和两个未经测试的改进:多源无分类器的指导和迭代解码过程中的因果偏差。通过在开源和专有数据集上进行训练,这些模型实现了最先进的音频质量。标准度量和音乐信息检索描述符方法验证了其音频质量。通过Mean Opinion Score测试确认了该模型生成逼真音乐结果的能力。

项目网址:https://julian-parker.github.io/stemgen/

论文网址:https://arxiv.org/abs/2312.08723

ai
THE END
zhanid
勇气也许不能所向披靡,但胆怯根本无济于事

相关推荐

AIGC冲击下,个人博客网站如何突围?站长必看的未来趋势
2025年,AIGC(人工智能生成内容)技术已渗透至内容创作、分发、优化的全链条。从自动生成新闻稿到智能推荐个性化内容,AI工具正以“分钟级”效率重构内容生产规则。这一趋势...
2025-09-15 站长之家
590

Motia:多语言统一后端开发框架,整合 API、任务与 AI 代理的一站式解决方案
Motia是一个统一的后端框架,旨在消除现代软件工程中的运行时碎片化问题。它将 API、后台任务、工作流和 AI 代理整合到一个连贯的系统中,支持在同一个代码库中使用 JavaScri...
2025-09-14 新闻资讯
602

BillionMail:一款完全开源的邮件服务器与电子邮件营销平台
BillionMail是一款完全开源的邮件服务器与电子邮件营销平台,它集成了邮件服务、新闻推送、营销管理三大核心功能于一身,让用户能够完全掌控自己的邮件通信与营销活动。与传统...
2025-09-12 新闻资讯
850

FluentRead:开源的沉浸式浏览器翻译插件,支持20+AI与传统翻译引擎
FluentRead(流畅阅读)是一款开源的浏览器翻译插件,旨在为用户提供接近母语体验的多语言网页阅读解决方案。它通过集成多种翻译引擎和智能功能,帮助用户跨越语言障碍,特别适...
2025-09-11 新闻资讯
630

VTJ.PRO:AI驱动的企业级低代码开发平台,让Vue3开发更高效
VTJ.PRO是一款AI驱动的企业级低代码开发平台,专注于前端开发领域,基于Vue3 + TypeScript + Vite构建,深度融合可视化设计、源码工程与AI智能引擎,旨在解决传统开发中的效率...
2025-09-11 新闻资讯
559

数字人软件有哪些?6款免费的AI数字人生成软件推荐评测
在人工智能技术飞速发展的当下,数字人软件正以“零门槛、低成本、高效率”的特性,重塑内容创作、营销推广、教育培训等领域的生产模式。本文ZHANID工具网将结合功能特点、操...
2025-09-11 电脑知识
865