AngeVoice：一个支持三种引擎的自托管 TTS 平台

说明： AngeVoice 不是一个重新训练语音模型的项目，而是一个面向本地部署场景的 TTS 服务框架。项目将不同特点的开源语音模型接入统一的 Web 界面与调用接口；模型能力、许可证与使用限制仍以上游项目说明为准。

为什么做 AngeVoice？

本地语音合成并不缺少优秀的开源模型，但真正把它们放进 NAS 或家用服务器中长期运行时，常常还会遇到一些实际问题：不同模型的部署方式不一致、调用接口各不相同、参考音频管理不方便、模型加载和释放难以控制，想在浏览器中简单试听也需要额外搭建界面。

AngeVoice 想解决的正是这部分"模型之外"的问题：把适合本地运行的 TTS 能力整理到一个统一的平台里，让用户可以在自己的设备上进行语音合成、试听和接口调用，并根据场景选择不同引擎。

本地部署的意义也不仅是"能跑起来"。语音文本和参考音频可以留在自己的设备中，服务也更容易接入局域网里的阅读器、语音助手或其他自动化应用。至于实际合成体验，则会受到模型、文本内容、设备性能和运行方式等多方面影响。

AngeVoice GitHub 仓库首页

三种引擎，面向不同使用方式

ZipVoice：参考音频声音克隆

AngeVoice 集成的 ZipVoice 路线，适合需要通过一段参考音频生成相近说话风格的场景。用户可以上传参考音频，并在 Studio 中试听生成结果。

它更适合个性化旁白、角色语音尝试或需要参考声音特征的内容生成。克隆效果会受到参考音频质量、文本长度和内容差异等因素影响，因此仍需要根据实际素材试听判断。

播放音频

ZipVoice中文克隆

0:00 / 0:00

Kokoro：轻量的预设音色合成

Kokoro 路线更偏向直接、轻量的日常合成方式：选择预设音色，输入文字即可输出语音。对于通知播报、文章试听、语音助手响应等不需要临时克隆声音的场景，这种使用方式更简单。

在 AngeVoice 中，Kokoro 也承担了比较基础、稳定的本地中文语音合成入口，适合作为初次体验平台时的起点。

播放音频

Kokoro中文合成

0:00 / 0:00

MOSS-TTS-Nano：另一种本地语音生成选择

MOSS-TTS-Nano 是 OpenMOSS 团队发布的轻量级开源语音生成模型。AngeVoice 将它作为另一条可选合成路线接入平台，便于在同一套界面和接口下试听、比较不同模型的声音表现，也支持其对应的参考音频使用方式。

不同引擎并不存在适用于所有文本和声音需求的固定优劣排序。对于语气、清晰度、自然度或角色贴合程度的判断，最直观的方法仍然是使用自己的文本和参考素材进行实际试听。

播放音频

MOSS-TTS-Nano合成示例

0:00 / 0:00

AngeVoice Studio 界面

不只是把模型放在一起

AngeVoice 的工作重点并不是替代上游模型，而是将多种模型能力整理成更易于使用和部署的服务形态。

在浏览器中的 Studio 界面里，可以进行模型选择、文字输入、语音试听与流式播放；对于支持参考音频的合成方式，也可以在界面中完成上传与预览。对于其他程序，平台提供统一的 HTTP API 和 WebSocket 流式接口，调用方不必针对每个模型重新写一套接入逻辑。

项目还考虑了本地长期运行时会遇到的实际需求，例如模型切换、运行状态查看、空闲时释放资源、Docker 部署和不同运行环境下的适配。这样一来，它更像是一个可放在家用服务器或 NAS 上持续使用的语音服务，而不只是单独运行某个模型的演示脚本。

当前主要能力

多引擎接入：在同一平台中使用 ZipVoice、Kokoro 与 MOSS-TTS-Nano。
Studio Web UI：通过浏览器进行文字合成、试听、模型选择和参考音频操作。
统一调用接口：提供面向程序接入的 HTTP API 与 WebSocket 流式调用方式。
本地部署：以 Docker 为主要部署方式，适合 NAS、家用服务器及带 NVIDIA GPU 的设备。
运行管理：围绕模型状态、资源释放和日常使用提供必要的管理能力。
空闲释放与唤醒：空闲 10 分钟后可释放已加载模型资源，下一次调用时自动唤醒加载。

部署方式

AngeVoice 以自托管部署为目标，项目提供 Docker 相关配置与安装说明。根据设备环境，可以选择 CPU 或 NVIDIA GPU 运行方式；具体可用模式、端口、镜像和安装步骤，应以项目仓库当前版本的 README 为准。

项目仓库：ang77712829/AngeVoice

需要特别说明的是，管理后台若使用默认初始账户进入，应在首次部署后及时修改密码，尤其不要直接将保留默认凭据的服务暴露到公网。

项目定位

AngeVoice 的定位很明确：它不是自研语音基础模型，也不试图将上游模型的成果归为己有。它所做的是服务化整合、本地部署适配、统一交互与调用入口，以及围绕实际使用场景补齐管理能力。

对于希望把中文 TTS 留在本地运行的人来说，一个可以直接在浏览器里试听、可以被其他应用调用、也能根据需求切换模型的服务平台，往往比单独跑通一次模型推理更实用。

致谢

AngeVoice 的语音能力离不开上游开源项目。感谢以下项目及其维护者提供的模型与研究成果：

ZipVoice —— 参考音频声音克隆路线
Kokoro —— 轻量级语音合成模型
MOSS-TTS-Nano —— OpenMOSS 团队发布的轻量级语音生成模型

项目中的模型使用方式、许可证要求和相关限制，请同时参考各上游仓库的说明。

AngeVoice：一个支持三种引擎的自托管 TTS 平台

为什么做 AngeVoice？

三种引擎，面向不同使用方式

ZipVoice：参考音频声音克隆

Kokoro：轻量的预设音色合成

MOSS-TTS-Nano：另一种本地语音生成选择

不只是把模型放在一起

当前主要能力

部署方式

项目定位

致谢

评论