一、Audiblez是什么
Audiblez 是一款开源的电子书转有声书工具,旨在通过先进的语音合成技术,将 .epub 格式的电子书转换为高质量的 .m4b 格式有声书。其核心功能是通过 Kokoro-82M 语音合成模型实现自然流畅的语音输出,支持多语言、多声音选项,并具备高效的转换能力,适用于个人用户、教育机构及视障群体等多样化场景。
二、核心技术与架构
1. 关键技术组件
Audiblez 的成功离不开以下关键技术:
Kokoro-82M 语音合成模型:
这是一个仅 82M 参数 的高效模型,却能生成媲美真人朗读的语音效果。它支持 9种语言(包括英语、中文、日语等),并提供 40多种声音选项,用户可根据喜好选择不同性别、语调的语音。espeak-ng:
作为开源的文本转语音引擎,负责前端文本处理,确保语音合成的准确性和流畅性。FFmpeg:
用于音频文件的后处理,包括格式转换、合并章节音频等,最终生成兼容主流播放器的.m4b文件。wxPython:
为图形界面(GUI)提供支持,使得非技术用户也能轻松操作。
2. 技术优势
轻量化与高效:
Kokoro-82M 模型在保持高质量语音输出的同时,显著降低了计算资源需求,即使在 CPU 上也能稳定运行(如 M2 MacBook Pro 上约每秒处理 60字符)。CUDA 加速支持:
在支持 NVIDIA GPU 的设备上,启用--cuda参数后,转换速度可提升 10倍(如《动物农场》16万字符仅需 5分钟)。
三、功能特色
1. 多语言与多声音支持
Audiblez 支持 9种语言,包括:
英语(美式、英式)
西班牙语、法语、意大利语
印地语、日语、巴西葡萄牙语
中文普通话。
每种语言提供多种声音选项(如美式英语的af_sky、中文的zf_xiaobei),用户可通过-v参数指定声音。
2. 灵活的转换设置
语速调节:
支持 0.5倍至2.0倍速 调整,满足学习、娱乐等不同场景需求(通过-s参数实现)。章节选择:
用户可通过--pick参数交互式选择特定章节转换,避免整本书的冗余处理。输出格式:
生成的.m4b文件兼容 VLC、iBooks 等主流播放器,并保留电子书原有的目录结构。
3. 跨平台与易用性
操作系统支持:
提供 Windows、macOS 和 Linux 的完整支持。两种使用模式:
命令行工具:适合开发者或高级用户,通过简单命令即可完成转换(如
audiblez book.epub -v af_sky)。图形界面(GUI):通过
audiblez-ui启动,提供直观的文件导入、语音选择等操作界面。

四、安装与配置指南
1. 环境准备
Python 3:需安装 ≤3.12版本(不支持 Python 3.13)。
依赖库:
FFmpeg:用于音频处理(Ubuntu/Debian 通过sudo apt install ffmpeg安装)。espeak-ng:文本转语音引擎(MacOS 通过brew install espeak-ng安装)。
2. 安装步骤
命令行工具安装
pip install audiblez
安装后下载模型文件(约 360MB):
wget https://github.com/thewh1teagle/kokoro-onnx/releases/download/model-files/kokoro-v0_19.onnx wget https://github.com/thewh1teagle/kokoro-onnx/releases/download/model-files/voices.json
图形界面安装
需额外安装 wxPython 和 pillow:
pip install audiblez pillow wxpython
启动 GUI:
audiblez-ui
Windows 特别说明
建议在虚拟环境中安装以避免依赖冲突:
python -m venv venv .\venv\Scripts\Activate.ps1 pip install audiblez pillow wxpython
若需 CUDA 加速,需单独安装适配的 PyTorch 版本。
五、使用场景与案例
1. 适用人群
通勤族:利用碎片时间听书(如《原则》《三体》等)。
语言学习者:通过多语言有声书提升听力能力。
视障群体:无障碍享受文学内容(如《平凡的世界》)。
运动爱好者:跑步或健身时听小说,兼顾娱乐与锻炼。
2. 实际案例
案例1:用户在地铁通勤期间听完 16万字 的《动物农场》,仅耗时 5分钟(GPU加速)。
案例2:视障读者通过 Audiblez “重读”《平凡的世界》,获得与传统阅读相同的情感体验。
六、相关链接
GitHub 仓库:https://github.com/santinic/audiblez
七、总结
Audiblez 以其 高效转换、多语言支持 和 开源免费 的特性,成为电子书爱好者和特定群体的实用工具。通过 Kokoro-82M 模型的轻量化设计,它既能在高性能设备上快速运行,也适配普通计算机的离线处理需求。其 命令行与GUI双模式 的设计,兼顾了技术用户与普通用户的操作习惯。作为一款活跃的开源项目,Audiblez 的未来发展潜力值得期待,但目前版本已足够满足大多数用户的电子书转有声书需求。
本文由@tom 原创发布。
该文章观点仅代表作者本人,不代表本站立场。本站不承担相关法律责任。
如若转载,请注明出处:https://www.zhanid.com/news/audiblez.html




















