腾讯发布多模态音乐生成模型M2UGen 支持图片、视频生成音乐

站长之家 2024-01-03 10:52:09新闻资讯
80

M2UGen是一款引领潮流的框架,融合了音乐理解和多模态音乐生成任务,旨在助力用户进行音乐艺术创作。通过其强大的功能,M2UGen提供了全方位的音乐生成和编辑体验。

M2UGen.png

体验地址:https://crypto-code.github.io/M2UGen-Demo/

除了可以从文字生成音乐外,它还支持图像、视频和音频生成音乐,并且还可以编辑已有的音乐。该项目利用了MERT等编码器进行音乐理解,ViT进行图像理解,ViViT进行视频理解,并使用MusicGen/AudioLDM2模型作为音乐生成模型(音乐解码器)。用户可以轻松移除或替换特定乐器,调整音乐的节奏和速度。这使得用户能够创造出符合其独特创意的音乐作品。

此外,M2UGen还加入了适配器和LLaMA2模型,使得该模型具备多种能力。

据悉,M2UGen采用了创新的方法,生成了大规模的多模态音乐指导数据集,用于训练模型。这包括MU-LLaMA模型生成的1.2k多小时音乐字幕数据集。模型结合了MU-LLaMA、BLIP图像字幕模型、MPT-7B-Chat模型以及VideoMAE字幕模型,以在各个领域生成对应的指导。

M2UGen展示了其出色的音乐生成、理解和编辑能力,用户可以通过交互式的演示视频和文本生成演示体验到模型的强大潜力。从生成摇滚音乐到对图像进行音乐创作,M2UGen满足了用户的多样化需求。

ai
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

腾讯会议麦克风没声音的原因及解决方法详解
腾讯会议作为一款广泛使用的在线会议软件,为远程办公和在线教育提供了极大的便利。然而,有时用户可能会遇到麦克风没有声音的问题,这不仅影响了会议的顺利进行,还可能给使...
2025-01-04 电脑知识
306

BrushEdit:腾讯、清华大学等联合推出的一体化图像编辑与修复技术
BrushEdit是腾讯、北京大学、香港中文大学及清华大学联合推出的先进图像编辑框架,是BrushNet模型的高级迭代版本。它结合了多模态大型语言模型(MLLMs)和双分支图像修复模型,...
2025-01-01 新闻资讯
209

ColorFlow:清华大学与腾讯ARC实验室联合研发的图像序列着色模型
ColorFlow是一款基于深度学习技术的图像序列着色模型,旨在解决在黑白图像序列上色的同时,保持角色和物体身份一致性的问题。该模型通过利用上下文信息和参考图像池,为黑白图...
2024-12-25 新闻资讯
208

微视是什么软件?腾讯微视如何开通直播权限?
微视是一款由腾讯推出的短视频分享软件,用户可以通过它创作和分享各种短视频,并且能够与朋友和其他用户互动。本文将详细介绍腾讯微视直播权限的开通方法,帮助用户轻松开启...
2024-12-25 电脑知识
227

腾讯电脑管家和360安全卫士哪个好?腾讯电脑管家和360安全卫士对比测评
腾讯电脑管家和360安全卫士作为两款备受瞩目的电脑安全软件,各自拥有庞大的用户群体和丰富的功能。然而,面对这两款软件,用户往往难以抉择,不知道哪款更适合自己的需求。本...
2024-12-06 电脑知识
426

怎么把qlv格式转成mp4?几款将腾讯视频qlv文件转换为mp4格式的方法及工具推荐
在数字化媒体时代,我们经常会遇到各种不同格式的视频文件。腾讯视频的 qlv 格式是其专属的视频格式,由于版权保护等原因,这种格式的视频在其他播放器或设备上往往无法直接播...
2024-10-16 电脑知识
1192