WhisperKit开源!可在iPhone和Mac流畅体验实时语音转录

站长之家 2024-01-31 16:20:49新闻资讯
23

由于对Whisper推理在生产中的迅速增长需求,Argmax公司决定将其作为首个项目,并于宣布将WhisperKit项目以MIT许可证的形式开源,进入beta测试阶段。

WhisperKit是一个用于实现在设备上进行语音推理的开源工具,旨在通过最小的摩擦和最大的性能提高,使开发者能够轻松改进和部署快速、免费且几乎无错误的翻译和转录服务。

简单的说,WhisperKit可以在 iPhone 上运行的Whisper实时推理软件,可以实时将声音转成对应的文字,想做类似实时翻译工具的可以关注一下。

WhisperKit.png

该项目提供了Swift包,只需两行代码即可在应用中实现Whisper推理,同时还附带了iOS和macOS的示例应用,方便开发者测试。为了优化和评估Whisper在Mac上的性能,还提供了Python工具。

WhisperKit的设计原则包括灵活性、可扩展性、可预测性和自动部署。该项目的设计使得开发者能够自由组合或隔离GPU和神经引擎的利用,以实现最佳的能效和最低的延迟。同时,WhisperKit被模块化为Swift协议,通过实现自定义行为的协议扩展,降低了扩展的难度。

WhisperKit2.png

在实现性能方面,WhisperKit的重点是在苹果芯片上实现最低延迟和最高吞吐量。特别是针对最具挑战性的openai/whisper-large-v3变体进行了优化。通过优化音频编码器和文本解码器,WhisperKit在iPhone12到15上取得了1.85x至2.85x的速度提升。

为了实现实时性能,WhisperKit克服了Whisper不设计用于低延迟音频处理的困难。通过在语音转录过程中定期积累足够的音频,对音频进行预处理和使用优化的编码器和解码器,WhisperKit实现了实时语音转文本的目标。

除此之外,WhisperKit还通过在编译时预先计算特殊标记的KV缓存值,进一步提高了性能。这项优化使得在流式模式下每秒可处理9-15个文本标记,足以满足日常语音需求。

在稳定版发布之前,WhisperKit计划引入性能报告创建、异步批处理预测、watchOS示例应用以及Metal-based推理引擎等功能。

项目入口:https://huggingface.co/argmaxinc/whisperkit-coreml

开源
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

16款时尚精美的后台管理系统模板推荐(附开源下载地址)
后台管理系统作为企业和开发者的重要工具,其重要性不言而喻。一个好的后台管理系统不仅能够提升工作效率,还能带来愉悦的使用体验。然而,要找到一款既美观又实用的后台管理...
2024-07-09 编程技术
121

Stirling-PDF:开源免费在线PDF工具箱安装部署教程
Stirling-PDF是一款基于 Web 的 开源PDF编辑处理工具,可使用 Docker部署。它使您能够对 PDF 文件执行各种操作,包括拆分、合并、转换、重组、添加图像、旋转、压缩等。本文将...
2024-07-02 电脑知识
107

4款基于.NET开发的开源Windows桌面工具箱项目推荐
基于.NET框架开发的Windows桌面应用因其强大的功能、灵活性以及与Windows操作系统的无缝集成,成为了许多开发者的首选。本文将推荐四款优秀的基于.NET开发的开源Windows桌面工...
2024-06-29 编程技术
84

10款开源的HTML5网页音乐播放器推荐
无论是背景音乐、在线电台还是个人音乐库,一个好的HTML5音乐播放器都能提升用户体验。本文将推荐10款优秀的开源HTML5网页音乐播放器,并提供它们的开源地址,帮助开发者找到...
2024-06-29 编程技术
101

8款开源且强大的HTML5网页视频播放器推荐
HTML5的出现极大地推动了网页视频播放技术的进步,逐渐取代了传统的Flash播放器,提供了更高效、安全和跨平台的解决方案。本文将为您推荐8款开源且功能强大的HTML5网页视频播...
2024-06-28 编程技术
249

KS-Downloader:开源免费快手短视频、图片无水印下载工具
在这个短视频盛行的时代,快手平台聚集了众多精彩瞬间。KS-Downloader,一款开源免费的下载工具,为广大用户提供了一个便捷的解决方案,帮助他们轻松下载快手上的短视频和图片...
2024-06-17 电脑知识
127