同一段《权力的常识》EP0 文稿,多引擎 + 多音色对比。重点关注:自然度、AI味、节奏感、情感表达。
当前正在用的方案,全文 ~6分钟
温和男声,适合知识分享
清亮女声,默认音色
讲师风格,沉稳有力
年轻男声
特色男声
精品百人系列,古风/沉稳
精品百人系列
北京口音,接地气
用你录制的女声参考音频做声音克隆
用你录制的男声参考音频做声音克隆
未能测试的引擎(HF GPU 排队超时 / 需注册):
• Qwen3-TTS 声音克隆 — 今天 HF ZeroGPU 配额用完,明天自动重试
• Chatterbox Multilingual(ResembleAI)— GPU 排队超时
• GLM-TTS(智谱)— HF Space 已暂停
• Fish Audio S2 — 需注册 API Key(注册送 8000 credits)
• CosyVoice(SiliconFlow)— 需注册(送 ¥14 额度)
建议操作:挑出你觉得最自然的 1-2 个音色,我用那个引擎跑全文 EP0。