开源文字转语音系统(WhisperSpeech):通过反向工程实现

站长之家 2024-01-22 12:04:09新闻资讯
186

WhisperSpeech是一个开源的文字转语音系统,其最大的亮点是通过对OpenAI的Whisper语音识别模型进行反向工程,实现了接收文字输入,并利用修改后的Whisper模型生成听起来自然的语音输出。WhisperSpeech的语音输出在发音准确性和自然度方面都非常出色。

WhisperSpeech.png

体验地址:https://replicate.com/lucataco/whisperspeech-small

目前,WhisperSpeech模型是在英语LibreLight数据集上训练的,但下一个版本的目标是多种语言(Whisper和EnCodec都是多语言的)。系统还可以在单个句子中混合多种语言,并且增加了测试语音克隆的简便方法。

WhisperSpeech 项目路线图:

  • -声学标记提取:改进声学标记的提取过程。

  • -语义标记提取:使用Whisper模型生成和量化语义标记。

  • -S->A模型转换:开发将语义标记转换为声学标记的模型。

  • -T->S模型转换:实现从文字标记到语义标记的转换。

  • -提升EnCodec语音质量:优化EnCodec模型以提高语音合成质量。

  • -短句推理优化:改善系统处理短句的能力。

  • -扩展情感语音数据集:收集更大的情感语音数据。

  • -文档化LibriLight数据集:详细记录HuggingFace上的数据集。

  • -多语言语音收集:聚集社区资源,收集多种语言的语音。

  • -训练多语言模型:开发支持多语言的文字到语音模型。

文字转语音
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

SkyReels-V1:昆仑万维开源的AI短视频生成模型
SkyReels-V1是昆仑万维开发的一款面向AI短剧创作的视频生成模型。它利用先进的深度学习技术,通过结合口型生成、表情生成和肢体生成等多个生成模块,实现了对人物表演细节的精...
2025-02-19 新闻资讯
159

Step-Audio:阶跃星辰与吉利汽车集团联合开源的语音交互大模型
Step-Audio是阶跃星辰与吉利汽车集团联合开源的阶跃Step系列多模态大模型中的一个重要组成部分,专注于语音交互领域。作为行业内首款产品级开源语音交互大模型,Step-Audio的...
2025-02-18 新闻资讯
146

百度将推出文心大模型4.5系列,并于6月30日正式开源
今日,百度公司正式宣布,将在未来几个月内陆续推出备受关注的文心大模型4.5系列,并计划于2025年6月30日起正式开源。这一消息引发了科技界和人工智能领域的高度关注,预示着...
2025-02-14 新闻资讯
162

FireRedASR:小红书开源的一款基于大模型的自动语音识别(ASR)系统
FireRedASR是由小红书FireRed团队开发并开源的一款基于大模型的自动语音识别(ASR)系统。这款语音识别系统不仅在中文识别领域取得了显著突破,还在多语言支持、高效推理等方面...
2025-02-12 新闻资讯
166

VideoWorld:字节跳动开源的自回归视频生成模型
VideoWorld是由北京交通大学、中国科学技术大学和字节跳动联合开发的一款自回归视频生成模型。该模型旨在探索深度生成模型是否能够通过未标注的视频数据学习复杂知识,包括规...
2025-02-11 新闻资讯
187

HelloMeme:开源AI面部表情与姿态迁移框架
HelloMeme是一款开源的面部表情与姿态迁移框架,它利用先进的AI技术,特别是基于最新的Diffusion生成技术,实现了将视频中的人物表情和姿态迁移到静态图像中,生成个性化、趣...
2025-01-10 新闻资讯
201