Audiblez:开源 EPUB 转为 M4B 有声书神器,支持多语言与 GPU 加速

原创 2025-09-02 10:07:31新闻资讯
743

一、Audiblez是什么

Audiblez 是一款开源的电子书转有声书工具,旨在通过先进的语音合成技术,将 .epub 格式的电子书转换为高质量的 .m4b 格式有声书。其核心功能是通过 Kokoro-82M 语音合成模型实现自然流畅的语音输出,支持多语言、多声音选项,并具备高效的转换能力,适用于个人用户、教育机构及视障群体等多样化场景。

二、核心技术与架构

1. 关键技术组件

Audiblez 的成功离不开以下关键技术:

  • Kokoro-82M 语音合成模型
    这是一个仅 82M 参数 的高效模型,却能生成媲美真人朗读的语音效果。它支持 9种语言(包括英语、中文、日语等),并提供 40多种声音选项,用户可根据喜好选择不同性别、语调的语音。

  • espeak-ng
    作为开源的文本转语音引擎,负责前端文本处理,确保语音合成的准确性和流畅性。

  • FFmpeg
    用于音频文件的后处理,包括格式转换、合并章节音频等,最终生成兼容主流播放器的 .m4b 文件。

  • wxPython
    为图形界面(GUI)提供支持,使得非技术用户也能轻松操作。

2. 技术优势

  • 轻量化与高效
    Kokoro-82M 模型在保持高质量语音输出的同时,显著降低了计算资源需求,即使在 CPU 上也能稳定运行(如 M2 MacBook Pro 上约每秒处理 60字符)。

  • CUDA 加速支持
    在支持 NVIDIA GPU 的设备上,启用 --cuda 参数后,转换速度可提升 10倍(如《动物农场》16万字符仅需 5分钟)。

三、功能特色

1. 多语言与多声音支持

Audiblez 支持 9种语言,包括:

  • 英语(美式、英式)

  • 西班牙语、法语、意大利语

  • 印地语、日语、巴西葡萄牙语

  • 中文普通话。
    每种语言提供多种声音选项(如美式英语的 af_sky、中文的 zf_xiaobei),用户可通过 -v 参数指定声音。

2. 灵活的转换设置

  • 语速调节
    支持 0.5倍至2.0倍速 调整,满足学习、娱乐等不同场景需求(通过 -s 参数实现)。

  • 章节选择
    用户可通过 --pick 参数交互式选择特定章节转换,避免整本书的冗余处理。

  • 输出格式
    生成的 .m4b 文件兼容 VLCiBooks 等主流播放器,并保留电子书原有的目录结构。

3. 跨平台与易用性

  • 操作系统支持
    提供 WindowsmacOSLinux 的完整支持。

  • 两种使用模式

    • 命令行工具:适合开发者或高级用户,通过简单命令即可完成转换(如 audiblez book.epub -v af_sky)。

    • 图形界面(GUI):通过 audiblez-ui 启动,提供直观的文件导入、语音选择等操作界面。

Audiblez.webp

四、安装与配置指南

1. 环境准备

  • Python 3:需安装 ≤3.12版本(不支持 Python 3.13)。

  • 依赖库

    • FFmpeg:用于音频处理(Ubuntu/Debian 通过 sudo apt install ffmpeg 安装)。

    • espeak-ng:文本转语音引擎(MacOS 通过 brew install espeak-ng 安装)。

2. 安装步骤

命令行工具安装

pip install audiblez

安装后下载模型文件(约 360MB):

wget https://github.com/thewh1teagle/kokoro-onnx/releases/download/model-files/kokoro-v0_19.onnx 
wget https://github.com/thewh1teagle/kokoro-onnx/releases/download/model-files/voices.json

图形界面安装

需额外安装 wxPythonpillow

pip install audiblez pillow wxpython

启动 GUI:

audiblez-ui

Windows 特别说明

建议在虚拟环境中安装以避免依赖冲突:

python -m venv venv
.\venv\Scripts\Activate.ps1
pip install audiblez pillow wxpython

若需 CUDA 加速,需单独安装适配的 PyTorch 版本。

五、使用场景与案例

1. 适用人群

  • 通勤族:利用碎片时间听书(如《原则》《三体》等)。

  • 语言学习者:通过多语言有声书提升听力能力。

  • 视障群体:无障碍享受文学内容(如《平凡的世界》)。

  • 运动爱好者:跑步或健身时听小说,兼顾娱乐与锻炼。

2. 实际案例

  • 案例1:用户在地铁通勤期间听完 16万字 的《动物农场》,仅耗时 5分钟(GPU加速)。

  • 案例2:视障读者通过 Audiblez “重读”《平凡的世界》,获得与传统阅读相同的情感体验。

六、相关链接

  • GitHub 仓库:https://github.com/santinic/audiblez

七、总结

Audiblez 以其 高效转换多语言支持开源免费 的特性,成为电子书爱好者和特定群体的实用工具。通过 Kokoro-82M 模型的轻量化设计,它既能在高性能设备上快速运行,也适配普通计算机的离线处理需求。其 命令行与GUI双模式 的设计,兼顾了技术用户与普通用户的操作习惯。作为一款活跃的开源项目,Audiblez 的未来发展潜力值得期待,但目前版本已足够满足大多数用户的电子书转有声书需求。

有声书制作 开源项目
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

Gogs: 一款类似GitHub的开源文件/代码管理系统
Gogs(发音为/gɑgz/)作为一款以Go语言开发的开源文件/代码管理系统,凭借“简单、稳定、可扩展”的核心定位,成为诸多开发者和团队替代GitHub进行私有代码托管的优选方案。...
2025-09-15 新闻资讯
1178

WebVm:完全在浏览器中运行的 Linux 虚拟机环境,无需任何后端服务器支持
WebVM是一个革命性的开源项目,它实现了一个完全在浏览器中运行的Linux虚拟机环境,无需任何后端服务器支持。该项目由Leaning Technologies开发并开源,通过HTML5和WebAssemb...
2025-09-15 新闻资讯
1237

Motia:多语言统一后端开发框架,整合 API、任务与 AI 代理的一站式解决方案
Motia是一个统一的后端框架,旨在消除现代软件工程中的运行时碎片化问题。它将 API、后台任务、工作流和 AI 代理整合到一个连贯的系统中,支持在同一个代码库中使用 JavaScri...
2025-09-14 新闻资讯
923

Artalk:一款开源、轻量且可自托管的评论系统,支持部署到任何网站
Artalk 是一款基于 Golang 后端和 JavaScript/TypeScript 前端的开源自托管评论系统,专为博客、静态网站、企业官网等场景设计。项目采用 MIT许可证,支持多语言、多站点管理...
2025-09-12 新闻资讯
872

FluentRead:开源的沉浸式浏览器翻译插件,支持20+AI与传统翻译引擎
FluentRead(流畅阅读)是一款开源的浏览器翻译插件,旨在为用户提供接近母语体验的多语言网页阅读解决方案。它通过集成多种翻译引擎和智能功能,帮助用户跨越语言障碍,特别适...
2025-09-11 新闻资讯
959

VTJ.PRO:AI驱动的企业级低代码开发平台,让Vue3开发更高效
VTJ.PRO是一款AI驱动的企业级低代码开发平台,专注于前端开发领域,基于Vue3 + TypeScript + Vite构建,深度融合可视化设计、源码工程与AI智能引擎,旨在解决传统开发中的效率...
2025-09-11 新闻资讯
901