Deepgram推创新文本转语音模型Aura 支持实时文本转语音

站长之家 2023-12-11 12:07:27新闻资讯
35

深瞳公司推出了一款名为Aura的全新文本转语音模型,旨在满足实时语音AI代理的需求。随着大型语言模型(LLMs)的普及,语音交互成为访问LLMs及其解锁体验的主要手段。Aura的推出旨在解决当前语音AI供应商存在的速度、成本、可靠性和对话质量等方面的问题。相较于当前市场上的主流替代品,Aura在早期版本的盲评试中被评为更贴近人类声音,其开发计划也得到了提前扩展。

Aura.png

官方地址:https://deepgram.com/learn/aura-text-to-speech-api-waitlist

针对语音AI技术的不同应用,Deepgram区分了两个主要领域:高产出和高吞吐量。高产出关注打造完美声音,用于视频游戏或有声读物等项目,强调声音质量。而高吞吐量则着眼于实时对话,如快餐订餐、预约和了解汽车经销商的最新优惠等任务,注重对话流畅性和效率。Deepgram的目标是通过Aura在高吞吐量领域提供高效的文本转语音转换,以实现用户体验的平滑和可靠。

Aura的独特之处在于赋予AI代理更具人类特征的声音,包括及时的回应、在思考时使用自然的语音填充词汇,以及根据对话背景调整语调和情感。早期版本的Aura在盲评试中被评为比其他替代品更贴近人类声音,甚至在某些音频片段中超过了人类演讲者。

多年来,Deepgram一直致力于推动语音识别和口头语言理解技术的可能性。他们的团队不仅发展了能处理对话音频细微差异的新型转换器架构,还在处理各种语言、口音和方言的同时处理了口语中的不流畅和对话中的变化。通过有限约束构建模型,以优化其速度和效率。Deepgram还拥有内部数据标注和数据运营团队,通过构建定制工作流,记录、存储和传输大量音频,并持续扩充其高质量数据库,用于模型训练。

Aura被设计为速度、质量和效率的全能解决方案,旨在成为高质量选项中最快速、快速选项中最高质量的文本转语音模型。Deepgram强调,Aura的发布仅是一个开始,他们期待在与客户和合作伙伴的合作中继续完善和扩展该模型,共同定义AI代理的未来。计划于明年初正式发布,而开发者可以通过加入Aura的等待列表来获取早期体验并提供直接反馈。

语音
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

Parler-TTS:一款高质量开源TTS语音合成模型
最近,一个名为Parler-TTS的全新开源项目引起了业界的广泛关注。Parler-TTS是一个高质量的文本到语音(TTS)模型,它能够生成听起来非常自然的语音,为用户提供了前所未有的语音...
2024-04-11 新闻资讯
145

利用python实现终身免费的听书工具
本文通过实际案例,详细介绍了作者如何利用Python库实现文本转语音的过程,从安装库到实际操作案例,都有详细的说明,为读者提供了一定的参考价值
2024-03-29 编程技术
63

Narakeet:一个文本转语音工具 支持上传文档
Narakeet是一个能够将Word DOCX和纯文本文件转为语音的工具。该产品能够为用户提供高品质的语音合成和叙述视频制作服务。用户只需上传文档,Narakeet就可以为其生成语音内容,...
2024-03-02 新闻资讯
70