如何用 Fish Audio API 製作有聲書
Fish Audio 是目前最自然的 AI 語音模型之一。本文介紹如何通過 Fish Audio(基於 Fish Audio API 構建)完成一本有聲書的完整製作流程。
為什麼選擇 Fish Audio 製作有聲書?
Fish Audio 的 S1 模型在 TTS-Arena2 基準測試中排名第一,以情感控制和自然度著稱。對於有聲書製作,它有三個關鍵優勢:
聲音克隆
只需 10 秒音頻樣本即可克隆任意聲音,保持整本書的聲音一致性。
情感表達
支持開放域情感描述,讓對話場景更生動,不再是機械朗讀。
40+ 語言
訓練一次聲音模型,即可用於多語言版本,輕鬆製作多語言有聲書。
製作流程:5 個步驟
準備參考音頻
錄製或收集 10–30 秒的清晰音頻樣本。音頻越乾淨(無背景噪音),克隆效果越好。支持 MP3、WAV、M4A 格式。
在 Fish Audio 創建聲音模型
登錄 Fish Audio,進入「聲音克隆」,上傳參考音頻,填寫聲音名稱,點擊開始克隆。約 1 分鐘完成訓練。
分段處理書稿
將書稿按章節分段,每段建議不超過 1000 字。使用 Fish Audio 的長文本模式或批量模式,系統會自動分段處理。
生成並下載音頻
選擇克隆好的聲音模型,粘貼文本,點擊生成。支持批量生成多章節,完成後下載 MP3 文件。
後期處理(可選)
使用 Audacity 或 Adobe Audition 對各章節音頻進行音量均衡和拼接,導出最終有聲書文件。
提升質量的技巧
參考音頻中包含情感變化(不要只用平淡朗讀),克隆出的聲音表現力更強
對話場景可以在文本中加入情感提示詞,如「(激動地)」,Fish Audio 支持自然語言情感控制
長文本建議每段 500–800 字,避免單次生成過長導致質量下降
同一本書的所有章節使用同一個聲音模型,保持一致性
FAQ
Fish Audio API 適合製作有聲書嗎?
Fish Audio API 非常適合有聲書製作。它支持聲音克隆(只需 10 秒音頻樣本)、40+ 語言、批量文本處理,以及低延遲生成。Fish Audio 基於 Fish Audio API 構建,提供更簡潔的操作界面。
用 Fish Audio 製作有聲書需要多少費用?
Fish Audio 提供免費套餐(每月 8000 積分,約 7 分鐘音頻)。通過 Fish Audio 使用 Fish Audio 技術,免費套餐包含 1000 積分,付費套餐從每月 20000 積分起。
一本 10 萬字的有聲書需要多少積分?
以 Fish Audio 的標準計費,10 萬字約需 10 萬積分(1 積分 = 1 字符)。Pro 套餐每月 20000 積分,製作完整有聲書建議選擇按需充值方案。