开源文字转语音系统(WhisperSpeech):通过反向工程实现

站长之家 2024-01-22 12:04:09新闻资讯
60

WhisperSpeech是一个开源的文字转语音系统,其最大的亮点是通过对OpenAI的Whisper语音识别模型进行反向工程,实现了接收文字输入,并利用修改后的Whisper模型生成听起来自然的语音输出。WhisperSpeech的语音输出在发音准确性和自然度方面都非常出色。

WhisperSpeech.png

体验地址:https://replicate.com/lucataco/whisperspeech-small

目前,WhisperSpeech模型是在英语LibreLight数据集上训练的,但下一个版本的目标是多种语言(Whisper和EnCodec都是多语言的)。系统还可以在单个句子中混合多种语言,并且增加了测试语音克隆的简便方法。

WhisperSpeech 项目路线图:

  • -声学标记提取:改进声学标记的提取过程。

  • -语义标记提取:使用Whisper模型生成和量化语义标记。

  • -S->A模型转换:开发将语义标记转换为声学标记的模型。

  • -T->S模型转换:实现从文字标记到语义标记的转换。

  • -提升EnCodec语音质量:优化EnCodec模型以提高语音合成质量。

  • -短句推理优化:改善系统处理短句的能力。

  • -扩展情感语音数据集:收集更大的情感语音数据。

  • -文档化LibriLight数据集:详细记录HuggingFace上的数据集。

  • -多语言语音收集:聚集社区资源,收集多种语言的语音。

  • -训练多语言模型:开发支持多语言的文字到语音模型。

文字转语音
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

经典音乐播放器 Winamp 源代码开源引发争议,新许可协议限制严格
近日,经典的 Windows 平台第三方音乐播放器 Winamp 正式在 GitHub 上公开了其 Windows 端的源代码。这一举措本应受到开发者和用户的热烈欢迎,但由于其严格的 Winamp Collab...
2024-09-26 新闻资讯
121

知名Web服务器软件 Nginx 迁移至 GitHub,推动开源发展迈向新台阶
近日,知名Web服务器软件 NGINX 宣布其官方开源开发存储库已从 Mercurial 迁移至 GitHub,今后,NGINX 将在 GitHub 上以接受拉取请求(Pull Requests)的形式开始接受贡献。同时...
2024-09-11 新闻资讯
132

FastAdmin:一款开源免费的极速后台开发框架
FastAdmin 是基于 PHP 语言,结合 ThinkPHP 和 Bootstrap 两大主流技术构建而成的后台开发框架。ThinkPHP 是一款优秀的 PHP 开发框架,具有简洁、高效、易扩展等特点,为 Fas...
2024-09-06 编程技术
139

Tailor:一款开源免费的AI智能视频剪辑工具
Tailor(中文简称:泰勒)是一款开源免费的AI智能视频剪辑工具,具有 Apache - 2.0 许可证。它主要包括视频剪辑、视频生成和视频优化三大类视频处理方向,共 10 种方法。Tailor...
2024-09-01 电脑知识
225

阿里巴巴开源Qwen2-VL:革新多模态AI,超越GPT-4o的性能
阿里巴巴集团近日宣布开源其最新研发的视觉多模态模型——Qwen2-VL,Qwen2-VL模型在多项性能测试中超越了包括OpenAI的GPT-4o和Anthropic的Claude3.5-Sonnet在内的多个著名闭源...
2024-08-30 新闻资讯
118

Awesome-Digital-Human:基于Dify的开源AI数字人技术框架
Awesome-Digital-Human 是一个基于现代技术和AI服务的开源数字人技术框架,旨在帮助开发者快速搭建具备高度定制化和扩展性的数字人平台。该项目不仅适合初学者,也适合经验丰...
2024-08-27 编程技术
145