WhisperKit开源!可在iPhone和Mac流畅体验实时语音转录

站长之家 2024-01-31 16:20:49新闻资讯
343

由于对Whisper推理在生产中的迅速增长需求,Argmax公司决定将其作为首个项目,并于宣布将WhisperKit项目以MIT许可证的形式开源,进入beta测试阶段。

WhisperKit是一个用于实现在设备上进行语音推理的开源工具,旨在通过最小的摩擦和最大的性能提高,使开发者能够轻松改进和部署快速、免费且几乎无错误的翻译和转录服务。

简单的说,WhisperKit可以在 iPhone 上运行的Whisper实时推理软件,可以实时将声音转成对应的文字,想做类似实时翻译工具的可以关注一下。

WhisperKit.png

该项目提供了Swift包,只需两行代码即可在应用中实现Whisper推理,同时还附带了iOS和macOS的示例应用,方便开发者测试。为了优化和评估Whisper在Mac上的性能,还提供了Python工具。

WhisperKit的设计原则包括灵活性、可扩展性、可预测性和自动部署。该项目的设计使得开发者能够自由组合或隔离GPU和神经引擎的利用,以实现最佳的能效和最低的延迟。同时,WhisperKit被模块化为Swift协议,通过实现自定义行为的协议扩展,降低了扩展的难度。

WhisperKit2.png

在实现性能方面,WhisperKit的重点是在苹果芯片上实现最低延迟和最高吞吐量。特别是针对最具挑战性的openai/whisper-large-v3变体进行了优化。通过优化音频编码器和文本解码器,WhisperKit在iPhone12到15上取得了1.85x至2.85x的速度提升。

为了实现实时性能,WhisperKit克服了Whisper不设计用于低延迟音频处理的困难。通过在语音转录过程中定期积累足够的音频,对音频进行预处理和使用优化的编码器和解码器,WhisperKit实现了实时语音转文本的目标。

除此之外,WhisperKit还通过在编译时预先计算特殊标记的KV缓存值,进一步提高了性能。这项优化使得在流式模式下每秒可处理9-15个文本标记,足以满足日常语音需求。

在稳定版发布之前,WhisperKit计划引入性能报告创建、异步批处理预测、watchOS示例应用以及Metal-based推理引擎等功能。

项目入口:https://huggingface.co/argmaxinc/whisperkit-coreml

开源
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

Genkit:Google Firebase团队开发的统一全栈AI应用开发框架
Genkit 是由Google Firebase团队开发并投入生产的开源统一全栈AI应用开发框架,旨在为开发者提供一套完整的工具链和标准化接口,用于构建、测试和部署全栈AI驱动的应用程序。
2025-07-11 新闻资讯
225

SmolLM:Hugging Face推出的轻量高效多语言长上下文推理模型
SmolLM 是Hugging Face推出的"小而精"语言模型系列,其名称"Smol"源于"Small"的变体,直指其"以小搏大"的核心设计哲学。该项目始于SmolLM2的发布,最初定位为资源受限设备(如...
2025-07-11 新闻资讯
228

DiffuCoder:苹果公司与香港大学联合研发的并行化代码生成模型
DiffuCoder是苹果公司与香港大学联合研发的一款革命性代码生成模型,它突破了传统自回归语言模型(如GPT系列)必须按顺序生成代码的限制,采用掩码扩散模型(Masked Diffusio...
2025-07-10 新闻资讯
237

OmniSVG:全球首个端到端多模态可缩放矢量图形(SVG)生成模型
OmniSVG 是由复旦大学与阶跃星辰(StepFun)联合研发的全球首个端到端多模态可缩放矢量图形(SVG)生成模型,代表了当前AI生成矢量图形领域的最前沿技术突破。作为一项开源项目,...
2025-07-10 新闻资讯
242

HumanOmniV2:阿里巴巴通义实验室开源的多模态大语言模型
HumanOmniV2是阿里巴巴集团旗下通义实验室(Tongyi Lab)开源的多模态大语言模型,代表了当前人工智能领域在多模态推理与复杂意图理解方面的最前沿技术成果。作为HumanOmni系...
2025-07-10 新闻资讯
247

MetaStone-S1:融合深度推理与过程评分的反射生成模型
MetaStone-S1 是北京元石科技推出的反射生成式大模型,其核心创新在于提出了"反思型生成范式"(reflective generative paradigm),通过统一框架实现了推理生成与过程评估的协同...
2025-07-09 新闻资讯
264