网站导航

新闻资讯 编程技术 电脑知识 站长之家 自媒体

SongGeneration：腾讯AI Lab开源的文本到音乐生成大模型

原创 2025-06-21 11:07:44新闻资讯

1116

SongGeneration是什么

SongGeneration是腾讯AI Lab开源的文本到音乐生成大模型，作为当前最具突破性的AI音乐创作工具之一，其核心创新在于融合LLM（大语言模型）与DiT（扩散变换器）架构，首次实现了从文本描述到高品质音乐作品的一站式生成能力。项目发布后在AIGC领域引起广泛关注，GitHub Star数在短期内突破1000+，被评价为"音乐创作的Stable Diffusion时刻"。

相较于传统音乐生成方案，SongGeneration通过3B参数量的轻量级设计，在RTX 4090显卡上生成48kHz采样率的音乐仅需3秒，同时支持多轨分离与风格迁移等高级功能。技术测试显示，其生成作品在主观评测中超越多数商业闭源模型，尤其在旋律连贯性（提升37%）和音质表现（FAD指标0.82）方面表现突出。系统已全面开源模型权重、训练代码及推理部署方案，支持中英文流行、嘻哈、古风、电子等多样化曲风，为音乐创作、视频配乐、游戏开发等领域提供了工业化级解决方案。

功能特色

SongGeneration在AI音乐生成领域实现三大技术突破：

1. 智能化音乐创作

文本控制：输入关键词（如"开心流行"）即可生成完整音乐作品，支持中英文双语描述
风格跟随：上传10秒参考音频即可生成风格一致的新曲，覆盖流行、摇滚、中国风等流派
情感表达：通过潜在空间调控实现细腻情感渲染，悲伤/欢快等情绪准确率达89%

2. 专业级音频处理

多轨生成：自动分离人声与伴奏轨道，节奏匹配精度达92%
音色克隆：基于参考音频实现"音色克隆"级人声表现，音质MOS分4.2/5
高保真输出：48kHz采样率双通道音乐，信噪比优于75dB

3. 高效生成架构

极速响应：3秒生成3分钟完整歌曲（RTX 4090）
轻量部署：3B参数规模，8GB显存即可运行
开放生态：兼容Hugging Face/ONNX等工业标准

技术细节

1. 核心架构设计

双组件协同框架

Music Codec：1B参数，将48kHz音乐压缩为25Hz离散表征（压缩比1920:1）
Music LM：2B参数，基于指令生成音乐token序列
动态批处理：支持16路并发请求，延迟<100ms

关键训练策略

数据管线：

音伴分离：Demucs算法提取人声/乐器轨
结构分析：自动标注前奏/主歌/副歌段落
歌词识别：Whisper-large-v3实现多语种转录

模型优化：

多类别token并行预测：提升生成长度至5分钟
人类偏好对齐：基于10万次AB测试优化损失函数
课程学习：从30秒片段逐步扩展至完整歌曲

推理加速：

TensorRT部署：端到端延迟降低60%
INT8量化：模型体积减少50%，精度损失<2%

2. 性能指标

客观评测对比（NVIDIA A100）

指标	SongGeneration	商业模型A	提升幅度
旋律连贯性(↑)	0.87	0.63	+38%
音质(FAD↓)	0.82	1.15	+29%
风格匹配度(↑)	0.91	0.85	+7%
生成速度(tokens/s↑)	2,154	1,786	+21%

主观评测结果（100人盲测）

整体偏好：68%选择SongGeneration作品
音质评价：4.3/5 vs 商业模型3.9/5
情感表达：82%认为更富感染力

应用场景

SongGeneration的技术特性在多个领域产生变革性影响：

1. 内容创作

短视频配乐：某平台接入后创作者日均产出提升40%
广告音乐：30秒快速生成品牌定制音乐，成本降低90%
影视预告片：根据剧情自动生成主题旋律

2. 游戏开发

动态音效：依据游戏场景实时生成环境音乐
角色主题曲：为NPC生成个性化背景音乐
战斗BGM：根据战斗强度动态调整音乐张力

3. 音乐教育

风格演示：一键生成不同流派范例曲目
创作辅助：学生作品自动配器与和声优化
听力训练：生成特定难度的视唱练耳材料

4. 虚拟娱乐

虚拟偶像：实时生成演唱会曲目
元宇宙场景：动态环境音效系统
AI歌手：克隆音色演唱用户创作歌词

相关链接

论文地址：https://arxiv.org/abs/2506.07520
代码仓库：https://github.com/tencent-ailab/SongGeneration
演示地址：https://levo-demo.github.io/
模型地址：https://huggingface.co/waytan22/SongGeneration

总结

SongGeneration通过创新的LLM-DiT混合架构与专业化音乐数据处理管线，以3B参数量实现48kHz高保真音乐生成，其68%的用户偏好率与3秒极速响应能力，已成功应用于内容创作、游戏开发、音乐教育等领域，为AI音乐生成建立了新的技术标杆。

ai大模型开源项目

本文由@ai资讯 原创发布。

该文章观点仅代表作者本人，不代表本站立场。本站不承担相关法律责任。

如若转载，请注明出处：https://www.zhanid.com/news/songgeneration.html

THE END

ai资讯

关注ai行业发展，专注ai软件推荐。

相关推荐

2025世界AI大模型排行榜：中美争霸，开源崛起

2025世界AI大模型排行榜：中美争霸，开源崛起

综合排名：巨头领跑，中国力量突起 2025年AI大模型排名变化很快。Google Gemini 3 Pro Preview拿了73分第一。OpenAI和Anthropic紧追其后。国产模型MiniMax和DeepSeek表现亮...

2026-04-02 新闻资讯

248

Gogs：一款类似GitHub的开源文件/代码管理系统

Gogs：一款类似GitHub的开源文件/代码管理系统

Gogs（发音为/gɑgz/）作为一款以Go语言开发的开源文件/代码管理系统，凭借“简单、稳定、可扩展”的核心定位，成为诸多开发者和团队替代GitHub进行私有代码托管的优选方案。...

2025-09-15 新闻资讯

1903

WebVm：完全在浏览器中运行的 Linux 虚拟机环境，无需任何后端服务器支持

WebVm：完全在浏览器中运行的 Linux 虚拟机环境，无需任何后端服务器支持

WebVM是一个革命性的开源项目，它实现了一个完全在浏览器中运行的Linux虚拟机环境，无需任何后端服务器支持。该项目由Leaning Technologies开发并开源，通过HTML5和WebAssemb...

2025-09-15 新闻资讯

2013

Motia：多语言统一后端开发框架，整合 API、任务与 AI 代理的一站式解决方案

Motia：多语言统一后端开发框架，整合 API、任务与 AI 代理的一站式解决方案

Motia是一个统一的后端框架，旨在消除现代软件工程中的运行时碎片化问题。它将 API、后台任务、工作流和 AI 代理整合到一个连贯的系统中，支持在同一个代码库中使用 JavaScri...

2025-09-14 新闻资讯

1152

Artalk：一款开源、轻量且可自托管的评论系统，支持部署到任何网站

Artalk：一款开源、轻量且可自托管的评论系统，支持部署到任何网站

Artalk 是一款基于 Golang 后端和 JavaScript/TypeScript 前端的开源自托管评论系统，专为博客、静态网站、企业官网等场景设计。项目采用 MIT许可证，支持多语言、多站点管理...

2025-09-12 新闻资讯

1145

FluentRead：开源的沉浸式浏览器翻译插件，支持20+AI与传统翻译引擎

FluentRead：开源的沉浸式浏览器翻译插件，支持20+AI与传统翻译引擎

FluentRead(流畅阅读)是一款开源的浏览器翻译插件，旨在为用户提供接近母语体验的多语言网页阅读解决方案。它通过集成多种翻译引擎和智能功能，帮助用户跨越语言障碍，特别适...

2025-09-11 新闻资讯

1218

推荐工具

热门网站

热门文章

1 ed2k下载工具有哪些：8款广受好评的ed2k下载工具推荐 2 打开浏览器显示空白页about:blank怎么办？ 3 下划线“_”怎么打？电脑中下划线符号输入方法详解 4 Windows11系统中获取帮助的9种方法详解 5 网页打不开提示“CONNECTION_RESET”的原因及解决方法 6 Word顶端有一条横线怎样删除？删除Word顶部横线的几种方法

图文资讯

图片压缩软件有哪些？5款免费好用的图片压缩软件推荐

软件下载

Cursor
下载
Cursor 是一款创新的AI代码编辑器...
Maye Lite
下载
Maye Lite是一个专注于文件快速...
微信开发者工具
下载
微信开发者工具是一款专门针对于...
图吧工具箱
下载
图吧工具箱是电脑系统和硬件维护...
ShareX
下载
ShareX是一款免费的开源程序，不...
HeyGem
下载
Heygem 是一款专为Windows系统设...