WhisperKit开源!可在iPhone和Mac流畅体验实时语音转录

站长之家 2024-01-31 16:20:49新闻资讯
700

由于对Whisper推理在生产中的迅速增长需求,Argmax公司决定将其作为首个项目,并于宣布将WhisperKit项目以MIT许可证的形式开源,进入beta测试阶段。

WhisperKit是一个用于实现在设备上进行语音推理的开源工具,旨在通过最小的摩擦和最大的性能提高,使开发者能够轻松改进和部署快速、免费且几乎无错误的翻译和转录服务。

简单的说,WhisperKit可以在 iPhone 上运行的Whisper实时推理软件,可以实时将声音转成对应的文字,想做类似实时翻译工具的可以关注一下。

WhisperKit.png

该项目提供了Swift包,只需两行代码即可在应用中实现Whisper推理,同时还附带了iOS和macOS的示例应用,方便开发者测试。为了优化和评估Whisper在Mac上的性能,还提供了Python工具。

WhisperKit的设计原则包括灵活性、可扩展性、可预测性和自动部署。该项目的设计使得开发者能够自由组合或隔离GPU和神经引擎的利用,以实现最佳的能效和最低的延迟。同时,WhisperKit被模块化为Swift协议,通过实现自定义行为的协议扩展,降低了扩展的难度。

WhisperKit2.png

在实现性能方面,WhisperKit的重点是在苹果芯片上实现最低延迟和最高吞吐量。特别是针对最具挑战性的openai/whisper-large-v3变体进行了优化。通过优化音频编码器和文本解码器,WhisperKit在iPhone12到15上取得了1.85x至2.85x的速度提升。

为了实现实时性能,WhisperKit克服了Whisper不设计用于低延迟音频处理的困难。通过在语音转录过程中定期积累足够的音频,对音频进行预处理和使用优化的编码器和解码器,WhisperKit实现了实时语音转文本的目标。

除此之外,WhisperKit还通过在编译时预先计算特殊标记的KV缓存值,进一步提高了性能。这项优化使得在流式模式下每秒可处理9-15个文本标记,足以满足日常语音需求。

在稳定版发布之前,WhisperKit计划引入性能报告创建、异步批处理预测、watchOS示例应用以及Metal-based推理引擎等功能。

项目入口:https://huggingface.co/argmaxinc/whisperkit-coreml

开源
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

没有开源的币能买吗?资深分析师血泪教训大揭秘
大家好啊!我是老K,一个在币圈摸爬滚打7年的老韭菜。今天聊聊“没有开源的币能买吗”这个话题。最近粉丝私信问爆了。说实话,我看到这种问题就头疼。为啥?因为太多人栽过...
2026-04-02 新闻资讯
266

比特币最初的推广模式:从开源代码到寒酸展台的逆袭
大家好,我是老K,一个在币圈摸爬滚打7年的老韭菜。今天聊聊比特币最初的推广模式。说实话,这段历史太魔幻了。你看,现在比特币动不动就几万美元一枚。但回到2008年,它连...
2026-04-02 新闻资讯
231

开源币和不开源币啥区别?7年老司机血泪避坑指南
嗨,币圈的兄弟们。最近私信炸了。都在问开源币和不开源币有啥区别。说白了,这问题关乎你钱包安危。今天我掏心窝子聊聊。毕竟我踩过KYC被拒的坑,也见过粉丝被rekt惨的案例...
2026-04-02 新闻资讯
138

区块链代码开源意味着什么?资深分析师深度解析
大家好,我是老张。混迹币圈七年,踩过坑也交过学费。今天聊点实在的。用户常问我:项目方喊开源,到底靠不靠谱?痛点很明确。很多人被假透明项目割过韭菜。说白了,开源就...
2026-04-02 新闻资讯
192

Tether计划开源比特币矿机系统?真相是挖矿操作系统MiningOS
什么是MiningOS?别被“矿机”二字忽悠了 很多粉丝私信问我:“Tether真要开源比特币矿机硬件?”说白了,这是个常见误解。Tether开源的是挖矿操作系统,叫MiningOS,不是矿...
2026-04-02 新闻资讯
220

Pi币的开源代码是多少?资深分析师手把手拆穿谣言
大家好啊。我是老K。混迹币圈七年了。每天粉丝私信问我各种问题。最近“Pi币开源代码”刷爆搜索榜。说实话。这问题背后藏着大坑。今天必须说清楚。 Pi核心代码压根没开源 先...
2026-04-02 新闻资讯
159