Deepgram推创新文本转语音模型Aura 支持实时文本转语音

站长之家 2023-12-11 12:07:27新闻资讯
480

深瞳公司推出了一款名为Aura的全新文本转语音模型,旨在满足实时语音AI代理的需求。随着大型语言模型(LLMs)的普及,语音交互成为访问LLMs及其解锁体验的主要手段。Aura的推出旨在解决当前语音AI供应商存在的速度、成本、可靠性和对话质量等方面的问题。相较于当前市场上的主流替代品,Aura在早期版本的盲评试中被评为更贴近人类声音,其开发计划也得到了提前扩展。

Aura.png

官方地址:https://deepgram.com/learn/aura-text-to-speech-api-waitlist

针对语音AI技术的不同应用,Deepgram区分了两个主要领域:高产出和高吞吐量。高产出关注打造完美声音,用于视频游戏或有声读物等项目,强调声音质量。而高吞吐量则着眼于实时对话,如快餐订餐、预约和了解汽车经销商的最新优惠等任务,注重对话流畅性和效率。Deepgram的目标是通过Aura在高吞吐量领域提供高效的文本转语音转换,以实现用户体验的平滑和可靠。

Aura的独特之处在于赋予AI代理更具人类特征的声音,包括及时的回应、在思考时使用自然的语音填充词汇,以及根据对话背景调整语调和情感。早期版本的Aura在盲评试中被评为比其他替代品更贴近人类声音,甚至在某些音频片段中超过了人类演讲者。

多年来,Deepgram一直致力于推动语音识别和口头语言理解技术的可能性。他们的团队不仅发展了能处理对话音频细微差异的新型转换器架构,还在处理各种语言、口音和方言的同时处理了口语中的不流畅和对话中的变化。通过有限约束构建模型,以优化其速度和效率。Deepgram还拥有内部数据标注和数据运营团队,通过构建定制工作流,记录、存储和传输大量音频,并持续扩充其高质量数据库,用于模型训练。

Aura被设计为速度、质量和效率的全能解决方案,旨在成为高质量选项中最快速、快速选项中最高质量的文本转语音模型。Deepgram强调,Aura的发布仅是一个开始,他们期待在与客户和合作伙伴的合作中继续完善和扩展该模型,共同定义AI代理的未来。计划于明年初正式发布,而开发者可以通过加入Aura的等待列表来获取早期体验并提供直接反馈。

语音
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

老币AURA两日暴涨至近1亿市值,短线大户20小时狂赚130万美金内幕
AURA暴涨的惊人数据 令人惊讶的是,一个老币AURA最近上演了神级行情。据GMGN数据,它过去两天市值从不到100万美金飙升到近1亿美金。这个币存在超一年了,一直不温不火。突然...
2026-04-02 新闻资讯
186

比特币矿机制造商宣布融资:Auradine豪取1.53亿,矿圈新风暴来了?
大家好,我是老K。混迹币圈7年,踩过冷钱包的坑,也帮粉丝搞定过交易所注册。今天矿圈又爆大新闻了。比特币矿机制造商Auradine刚宣布融资1.53亿美元。消息一出,推特都刷屏...
2026-04-02 新闻资讯
202

Aura区块链官网入口查询指南:两个关键项目别混淆了!
先搞清你问的是哪个Aura? 最近不少粉丝私信问我"Aura区块链官网入口",但这里有个大坑。根据权威资料,市面上有两个完全不同的"Aura"项目。一个是奢侈品巨头搞的联盟,另一...
2026-04-02 新闻资讯
196

VibeVoice:微软开源的一款文本到语音(TTS)生成模型
VibeVoice 是微软研究院开源的一款革命性音频生成模型,其1.5B版本在语音合成领域实现了多项重大技术突破,被业界誉为"语音界的Sora"。作为基于人工智能的文本转语音(TTS)系统...
2025-08-26 新闻资讯
1372

KittenTTS:轻量级开源文本转语音(TTS)引擎
KittenTTS 是由KittenML团队开发的一款轻量级开源文本转语音(Text-to-Speech, TTS)引擎,其核心定位是提供高效、低资源消耗的语音合成解决方案。主打“小巧精悍”的特点,模...
2025-08-07 新闻资讯
1812

Abogen:高效文本转语音工具与同步字幕生成神器
Abogen 是一款基于 Kokoro-82M 技术的开源文本转语音(TTS)工具,能够将 EPUB、PDF 或纯文本文件快速转换为高质量的自然语音音频,并生成同步字幕文件。其核心目标是为内容创...
2025-08-01 新闻资讯
899