AI 摘要
AI
正在生成摘要...

AngeVoice:一个支持三种引擎的自托管 TTS 平台

说明: AngeVoice 不是一个重新训练语音模型的项目,而是一个面向本地部署场景的 TTS 服务框架。项目将不同特点的开源语音模型接入统一的 Web 界面与调用接口;模型能力、许可证与使用限制仍以上游项目说明为准。

为什么做 AngeVoice?

本地语音合成并不缺少优秀的开源模型,但真正把它们放进 NAS 或家用服务器中长期运行时,常常还会遇到一些实际问题:不同模型的部署方式不一致、调用接口各不相同、参考音频管理不方便、模型加载和释放难以控制,想在浏览器中简单试听也需要额外搭建界面。

AngeVoice 想解决的正是这部分"模型之外"的问题:把适合本地运行的 TTS 能力整理到一个统一的平台里,让用户可以在自己的设备上进行语音合成、试听和接口调用,并根据场景选择不同引擎。

本地部署的意义也不仅是"能跑起来"。语音文本和参考音频可以留在自己的设备中,服务也更容易接入局域网里的阅读器、语音助手或其他自动化应用。至于实际合成体验,则会受到模型、文本内容、设备性能和运行方式等多方面影响。

AngeVoice GitHub 仓库首页

三种引擎,面向不同使用方式

ZipVoice:参考音频声音克隆

AngeVoice 集成的 ZipVoice 路线,适合需要通过一段参考音频生成相近说话风格的场景。用户可以上传参考音频,并在 Studio 中试听生成结果。

它更适合个性化旁白、角色语音尝试或需要参考声音特征的内容生成。克隆效果会受到参考音频质量、文本长度和内容差异等因素影响,因此仍需要根据实际素材试听判断。

播放音频
ZipVoice中文克隆
0:00 / 0:00

Kokoro:轻量的预设音色合成

Kokoro 路线更偏向直接、轻量的日常合成方式:选择预设音色,输入文字即可输出语音。对于通知播报、文章试听、语音助手响应等不需要临时克隆声音的场景,这种使用方式更简单。

在 AngeVoice 中,Kokoro 也承担了比较基础、稳定的本地中文语音合成入口,适合作为初次体验平台时的起点。

播放音频
Kokoro中文合成
0:00 / 0:00

MOSS-TTS-Nano:另一种本地语音生成选择

MOSS-TTS-Nano 是 OpenMOSS 团队发布的轻量级开源语音生成模型。AngeVoice 将它作为另一条可选合成路线接入平台,便于在同一套界面和接口下试听、比较不同模型的声音表现,也支持其对应的参考音频使用方式。

不同引擎并不存在适用于所有文本和声音需求的固定优劣排序。对于语气、清晰度、自然度或角色贴合程度的判断,最直观的方法仍然是使用自己的文本和参考素材进行实际试听。

播放音频
MOSS-TTS-Nano合成示例
0:00 / 0:00

AngeVoice Studio 界面

不只是把模型放在一起

AngeVoice 的工作重点并不是替代上游模型,而是将多种模型能力整理成更易于使用和部署的服务形态。

在浏览器中的 Studio 界面里,可以进行模型选择、文字输入、语音试听与流式播放;对于支持参考音频的合成方式,也可以在界面中完成上传与预览。对于其他程序,平台提供统一的 HTTP API 和 WebSocket 流式接口,调用方不必针对每个模型重新写一套接入逻辑。

项目还考虑了本地长期运行时会遇到的实际需求,例如模型切换、运行状态查看、空闲时释放资源、Docker 部署和不同运行环境下的适配。这样一来,它更像是一个可放在家用服务器或 NAS 上持续使用的语音服务,而不只是单独运行某个模型的演示脚本。

当前主要能力

  • 多引擎接入:在同一平台中使用 ZipVoice、Kokoro 与 MOSS-TTS-Nano。
  • Studio Web UI:通过浏览器进行文字合成、试听、模型选择和参考音频操作。
  • 统一调用接口:提供面向程序接入的 HTTP API 与 WebSocket 流式调用方式。
  • 本地部署:以 Docker 为主要部署方式,适合 NAS、家用服务器及带 NVIDIA GPU 的设备。
  • 运行管理:围绕模型状态、资源释放和日常使用提供必要的管理能力。
  • 空闲释放与唤醒:空闲 10 分钟后可释放已加载模型资源,下一次调用时自动唤醒加载。

部署方式

AngeVoice 以自托管部署为目标,项目提供 Docker 相关配置与安装说明。根据设备环境,可以选择 CPU 或 NVIDIA GPU 运行方式;具体可用模式、端口、镜像和安装步骤,应以项目仓库当前版本的 README 为准。

项目仓库:ang77712829/AngeVoice

需要特别说明的是,管理后台若使用默认初始账户进入,应在首次部署后及时修改密码,尤其不要直接将保留默认凭据的服务暴露到公网。

项目定位

AngeVoice 的定位很明确:它不是自研语音基础模型,也不试图将上游模型的成果归为己有。它所做的是服务化整合、本地部署适配、统一交互与调用入口,以及围绕实际使用场景补齐管理能力。

对于希望把中文 TTS 留在本地运行的人来说,一个可以直接在浏览器里试听、可以被其他应用调用、也能根据需求切换模型的服务平台,往往比单独跑通一次模型推理更实用。

致谢

AngeVoice 的语音能力离不开上游开源项目。感谢以下项目及其维护者提供的模型与研究成果:

  • ZipVoice —— 参考音频声音克隆路线
  • Kokoro —— 轻量级语音合成模型
  • MOSS-TTS-Nano —— OpenMOSS 团队发布的轻量级语音生成模型

项目中的模型使用方式、许可证要求和相关限制,请同时参考各上游仓库的说明。

评论