AI音频模型Audiobox:通过语音和自然语言提示生成音频

站长之家 2023-12-01 10:19:55新闻资讯
280

Meta最新发布了Audiobox,这是一款基于语音和自然语言提示生成音频的先进研究模型。通过结合语音输入和文本提示,Audiobox可以轻松生成各种声音,包括语音、音效和音景,从而为多种用例提供定制音频。

Audiobox是Voicebox的继任者,进一步推动了音频生成领域的发展。与Voicebox相比,Audiobox具有更强大的可控性,用户可以使用文本描述提示来指定语音和音效的风格,这是Voicebox不支持的功能。通过同时使用语音输入和文本提示,用户可以实现自由形式的语音重塑,这在当前的模型中尚属首次。

Audiobox.png

这款模型的独特之处在于,它允许用户使用自然语言提示描述他们想要生成的声音或语音类型。例如,如果有人想要生成一片音景,他们可以给模型一个文本提示,如“一条奔流的河流和鸟儿的鸣叫”。

Audiobox不仅在语音生成方面表现出色,还在音效生成方面表现出色。经过内部测试,Audiobox在质量和相关性方面明显超过先前的最佳模型,并在主观评估中以超过30%的样式相似性优势击败了Voicebox。

为了促进领域的发展并确保研究的负责任性,Meta计划邀请研究人员和学术机构申请资金,用于Audiobox的安全和责任研究。这一举措反映了他们对AI创新的关切,强调了与研究社区合作的重要性。

Audiobox的推出标志着音频生成领域的一项重要进展,Meta希望通过这一创新降低音频创作的门槛,使任何人都能轻松成为音频内容创作者。这对于视频、播客、游戏等多种用例都具有潜在的影响,为未来的音频创作开辟了新的可能性。

ai
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

AIGC冲击下,个人博客网站如何突围?站长必看的未来趋势
2025年,AIGC(人工智能生成内容)技术已渗透至内容创作、分发、优化的全链条。从自动生成新闻稿到智能推荐个性化内容,AI工具正以“分钟级”效率重构内容生产规则。这一趋势...
2025-09-15 站长之家
590

Motia:多语言统一后端开发框架,整合 API、任务与 AI 代理的一站式解决方案
Motia是一个统一的后端框架,旨在消除现代软件工程中的运行时碎片化问题。它将 API、后台任务、工作流和 AI 代理整合到一个连贯的系统中,支持在同一个代码库中使用 JavaScri...
2025-09-14 新闻资讯
601

BillionMail:一款完全开源的邮件服务器与电子邮件营销平台
BillionMail是一款完全开源的邮件服务器与电子邮件营销平台,它集成了邮件服务、新闻推送、营销管理三大核心功能于一身,让用户能够完全掌控自己的邮件通信与营销活动。与传统...
2025-09-12 新闻资讯
849

FluentRead:开源的沉浸式浏览器翻译插件,支持20+AI与传统翻译引擎
FluentRead(流畅阅读)是一款开源的浏览器翻译插件,旨在为用户提供接近母语体验的多语言网页阅读解决方案。它通过集成多种翻译引擎和智能功能,帮助用户跨越语言障碍,特别适...
2025-09-11 新闻资讯
630

VTJ.PRO:AI驱动的企业级低代码开发平台,让Vue3开发更高效
VTJ.PRO是一款AI驱动的企业级低代码开发平台,专注于前端开发领域,基于Vue3 + TypeScript + Vite构建,深度融合可视化设计、源码工程与AI智能引擎,旨在解决传统开发中的效率...
2025-09-11 新闻资讯
559

数字人软件有哪些?6款免费的AI数字人生成软件推荐评测
在人工智能技术飞速发展的当下,数字人软件正以“零门槛、低成本、高效率”的特性,重塑内容创作、营销推广、教育培训等领域的生产模式。本文ZHANID工具网将结合功能特点、操...
2025-09-11 电脑知识
865