11个优秀的开源TTS引擎分享

andflow 2024-01-03 14:40:34电脑知识
333

TTS引擎用于实现文本到语音的转换。随着人工智能的普及以及数字设备应用的增加,相关系统对语音识别以及文语转换技术日益依赖,TTS正在变得越来越重要。

在这项技术的帮助下,可以将文本内容转换为录音。可以帮助视觉障碍的人理解文本内容,可以让开车的人听取一个文本工作报告,甚至模拟某个人的声音播报一段内容、演唱一个歌曲,实现虚拟主播、虚拟歌手。

本文主要查找收集了一些较好的开源TTS引擎。这些项目有助于我们更加了解TTS的功能。

tts.jpg

1.CoQui TTS

https://github.com/coqui-ai/TTS

这是一个在研究和生产中经过了实战考验的TTS深度学习工具包,可以以200毫秒的延迟进行流传输,支持13种语言(包括中文)。

2.mozilla TTS

https://github.com/mozilla/TTS

TTS是一个用于文本到语音生成的高级库。旨在实现易于训练、高速度和高质量的最佳平衡。 提供预训练模型,以及用于测量数据集质量的工具,支持用于产品和研究的20多种语言,包括支持中文。

3.OpenTTS

https://github.com/synesthesiam/opentts

OpenTTS是TTS最有效的开源模型之一。因为该模型支持包括中文在内的多种语言。

4.MaryTTS

https://github.com/marytts/marytts

MARY Text-to-Speech 语音合成是一个多语言TTS平台,支持英语(英国和美国)、法语、德语、意大利语、俄语等语言。

产品特点:

  • 使用预处理技术,如tokenizer和数值扩展。

  • 它采用多线程网络架构,并行处理多个请求。

  • 它本质上是灵活的,因此您可以使用纯Java模型和外部模型。

  • 它使用XML结构来提高透明度,并且对于普通用户来说易于理解。

5.eSpeak

https://github.com/espeak-ng/espeak-ng

eSpeak是一个紧凑的开源TTS引擎,可运行于Windows和Linux。支持100多种语种和语音(包括中文普通话)。

产品特点:

  • 这个平台可以很容易地完成文本到语音的转换。这有助于系统理解文本的含义。

  • 它带有两个合成器:eSpeakinG合成器,通过声音添加技术转换元音和响亮的辅音,以完成声音。Klatt合成器使用类似的技术,但使用减法合成。它使用数字滤波器来理解辅音、元音和响音之间的区别。

  • 因为它的差异化技术和将文本转换为语音的速度优势,这个工具在2010年被谷歌翻译使用。

  • 声音的音质清晰悦耳。

6.Mimic

https://github.com/MycroftAI/mimic3

Mimic是一个快如闪电的开源TTS引擎。

产品特点:

  • 由于它基于FLITE技术,您可以自定义语音的声音。

  • 它是一个低延迟平台,并且只占用少量的资源。

  • 它可以在Linux、Android和Windows上无缝运行。

目前,该工具正在为患有语言障碍的人带来逼真的声音。

7.CMU Flite TTS

https://github.com/festvox/flite

Festival Lite通常被称为Flite。它是一个小型的运行时引擎,被认为是最快的TTS引擎之一。

由于它是一个开源引擎,并且是免费的,可以基于这个项目做许多自定义功能。因此,许多公司都选择了这个TTS引擎。

核心特点:

  • 可以用于小型和大型文件。

  • 它是线程安全的,其最新版本提供了一个轻松的TTS转换。

  • 它与Windows、Linux和Android兼容。

  • 它还提供多种语言版本。

8.MBROLA

https://github.com/numediart/MBROLA

MBROLA是Multi-Band Resynthesis OverLap Add的缩写,也是最常用的开源TTS引擎之一。它支持多种语言。

功能特点:

  • 提供多语种数据库。

  • 它对于内部文本到语音的转换非常有用。

  • 它以前是一个非商业软件,但现在作为开源TTS引擎推出。

  • 它提供了令人愉快的音质,具有一致性、准确性的声音音高。

9.mandarin-tts

https://github.com/ranchlai/mandarin-tts

这是一个模块化的中文普通话TTS语音合成框架,旨在支持研究和快速产品开发。

主要功能包括:

  • 所有模块都可通过YAML配置,

  • 支持并可配置说话者嵌入/韵律嵌入/多流文本嵌入,

  • 适配器支持各种声码器(VocGAN、hifi-GAN、waveglow、melGAN),从而可以容易地进行不同声码器之间的比较,

  • 支持持续时间/音调/能量方差预测器,并且可以容易地添加其他方差,

10.FCH-TTS

https://github.com/atomicoo/FCH-TTS

一个快速语音合成模型,适用于英语、普通话/中文、日语、韩语、俄语和藏语。

11.rhasspy piper

https://github.com/rhasspy/piper

piper.png

piper是一个快速的本地语音合成系统,并针对Raspberry Pi 4(树莓)进行了优化。 支持包括中文在内的多种语言。

使用DEMO如:

echo 'Welcome to the world of speech synthesis!' | \
  ./piper --model en_US-lessac-medium.onnx --output_file welcome.wav

以上则是11个优秀开源TTS引擎分享的全部内容,希望对您有所帮助!

tts
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

开源AI平台Cherry Studio本地部署与远程调用本地大模型图文详解
对于初次接触Cherry Studio的用户来说,如何顺利进行本地部署并实现远程调用本地大模型,可能是一个既充满挑战又极具价值的学习过程。本文旨在通过图文并茂的方式,详细阐述C...
2025-03-25 编程技术
196

腾讯混元推出 5 个开源3D模型: 30 秒生成,兼容多平台
​腾讯混元宣布推出5个全新3D生成模型,并全部开源。这些基于Hunyuan3D-2.0打造的模型具有更快的生成速度、更丰富的细节和更逼真的材质表达。同时,腾讯自研的3D AI创作引擎也...
2025-03-18 新闻资讯
202

Roblox开源Cube3D:首个基础AI模型实现3D对象生成
近日,Roblox宣布推出并开源Cube3D,这是该公司首个用于生成3D对象的基础AI模型。根据Roblox的新闻稿,Cube3D旨在提高3D创作效率,让开发者能够快速探索创作方向并提升生产力...
2025-03-18 新闻资讯
196

开源Manus复刻版OpenManus本地部署的图文教程
OpenManus是Manus项目的开源复刻版,旨在为开发者提供一个灵活且强大的平台,用于创建和训练AI智能体。为了方便开发者在本地环境中进行开发和测试,本文将详细介绍如何在本地...
2025-03-18 编程技术
330

微软开源神器MarkitDown:让Markdown处理像做菜一样简单
微软最近在GitHub上开源了一个名为MarkItDown的项目,直接戳中了广大开发者、内容创作者和AI从业者的痛点——文件格式转换。这个工具用起来就像“格式界的翻译官”,能把PDF、...
2025-03-18 电脑知识
261

10 款高颜值免费开源 TailwindCSS 前端组件库精选推荐
Tailwind CSS作为一款流行的实用优先CSS框架,凭借其简洁的类名和强大的定制能力,受到了广大开发者的青睐。本文将推荐10款高颜值的免费开源Tailwind CSS前端组件库,帮助开发...
2025-03-14 编程技术
263