AI音频模型Audiobox:通过语音和自然语言提示生成音频

站长之家 2023-12-01 10:19:55新闻资讯
188

Meta最新发布了Audiobox,这是一款基于语音和自然语言提示生成音频的先进研究模型。通过结合语音输入和文本提示,Audiobox可以轻松生成各种声音,包括语音、音效和音景,从而为多种用例提供定制音频。

Audiobox是Voicebox的继任者,进一步推动了音频生成领域的发展。与Voicebox相比,Audiobox具有更强大的可控性,用户可以使用文本描述提示来指定语音和音效的风格,这是Voicebox不支持的功能。通过同时使用语音输入和文本提示,用户可以实现自由形式的语音重塑,这在当前的模型中尚属首次。

Audiobox.png

这款模型的独特之处在于,它允许用户使用自然语言提示描述他们想要生成的声音或语音类型。例如,如果有人想要生成一片音景,他们可以给模型一个文本提示,如“一条奔流的河流和鸟儿的鸣叫”。

Audiobox不仅在语音生成方面表现出色,还在音效生成方面表现出色。经过内部测试,Audiobox在质量和相关性方面明显超过先前的最佳模型,并在主观评估中以超过30%的样式相似性优势击败了Voicebox。

为了促进领域的发展并确保研究的负责任性,Meta计划邀请研究人员和学术机构申请资金,用于Audiobox的安全和责任研究。这一举措反映了他们对AI创新的关切,强调了与研究社区合作的重要性。

Audiobox的推出标志着音频生成领域的一项重要进展,Meta希望通过这一创新降低音频创作的门槛,使任何人都能轻松成为音频内容创作者。这对于视频、播客、游戏等多种用例都具有潜在的影响,为未来的音频创作开辟了新的可能性。

ai
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

Matrix-Game:基于17B参数的开源交互式世界生成大模型
Matrix-Game是昆仑万维开源的交互式世界生成大模型,项目基于先进的扩散模型技术,能够根据用户输入的键盘指令和鼠标操作生成连贯、可控的互动视频,在Minecraft等游戏环境中...
2025-05-16 新闻资讯
215

FaceShot:同济大学开源的一款无需训练的跨角色肖像动画生成框架
FaceShot是由同济大学研究团队开发并开源的一款创新型肖像动画框架,该项目在ICLR2025会议上正式发布并引起学术界广泛关注。作为计算机视觉领域的前沿研究成果,FaceShot突破...
2025-05-16 新闻资讯
219

AgentCPM-GUI:首个面向中文应用的端侧GUI智能体框架
AgentCPM-GUI是由清华大学自然语言处理实验室(THUNLP)与ModelBest联合开发的开源本地化GUI智能体模型,代表了当前中文图形用户界面(GUI)智能体领域的最前沿技术。该项目基于8...
2025-05-15 新闻资讯
231

Minion Agent:开源多合一AI智能体框架与多任务协作平台
Minion Agent 是由 femto 团队开发的开源多智能体协作框架,旨在解决AI开发中的框架碎片化问题,通过统一接口整合多种AI工具(如OpenAI、LangChain、Google AI等),支持多智...
2025-05-15 新闻资讯
228

DreamFit:字节跳动开源的轻量级服装为中心的人体生成模型
DreamFit 是由字节跳动团队开发的开源轻量级服装为中心的人体生成模型,专注于通过AI技术实现高质量服装生成、虚拟试穿和创意换装。该项目采用创新的轻量化架构,结合自适应注...
2025-05-15 新闻资讯
224

直播话术生成器:AI写的台词真能用吗?
随着直播行业的蓬勃发展,直播话术生成器作为一种新兴的工具,受到了越来越多商家的关注。其中,AI写的台词因其高效、便捷的特点而备受瞩目。那么,AI写的台词真的能在直播中...
2025-05-14 自媒体
229