產品發佈2026-03-02·8分鐘

Fish Audio S2 模型發佈：AI語音合成進入2.0時代

更自然的情感表達、更精細的控制能力、更低的延遲——Fish Audio S2開啟AI語音新紀元

Fish Audio 即將發佈全新一代 S2 模型，這是繼 S1 之後的一次重大飛躍。S2 在情感控制、多說話人支持和延遲優化上實現了全面突破，標誌著AI語音合成正式進入2.0時代。

為什麼需要 S2？AI語音的下一個躍遷

過去一年，Fish Audio 憑藉 S1 模型成為全球第二大AI語音平臺，積累了350萬用戶和110萬UGC聲音模型，實現了1000萬美元ARR。S1作為世界首個支持自然語言情感控制的TTS模型，已經證明了端到端語音建模的巨大潛力。

然而，S1只是起點。我們正進入AI Voice 2.0的技術爆發期——從傳統的逐字逐句的播報式語音，進化到具備真實情感、交互式、有靈魂的AI聲音。S2正是這一變革的核心載體。

S2 核心升級：三大維度全面突破

更精細的情感控制

S2實現了開放域情感標註，從簡單的"高興"、"悲傷"到複雜的"帶著憤怒和悲傷"等混合情緒，都能精準表達。這得益於我們自研的全球領先情緒標註ASR模型，讓預訓練數據天然攜帶準確的情感標籤。

原生多說話人支持

S2架構天然支持多說話人場景，每個片段都帶有精準的說話人標籤（speaker tag）。無論是多人播客、有聲書對白還是遊戲NPC對話，都能實現自然流暢的多角色切換。

超低延遲

基於端到端架構，S2理論上只需第一個token生成完就可以開始音頻解碼，延遲可壓縮到極致。我們還將發佈去掉Vocoder的全新模型，實現從文本到波形的完整端到端建模，有望將延遲降至30～50毫秒。

S2 模型矩陣：為不同場景量身定製

Fish Audio不追求單一大模型，而是打造針對不同商業場景的模型矩陣：

S2 Pro

旗艦內容生成模型，專為追求極致聲音質量和情感表達力的場景設計。適用於有聲書、播客、影視配音、ASMR等內容創作，在自然度和表現力上達到新高度。

S2 Flash

4B參數企業級模型，專為實時客服對話場景優化。擁有更低的延遲和更高的穩定性，是AI陪伴社交、實時語音客服、銷售機器人和教育場景的理想選擇。

技術突破：數據驅動的革命

S2的核心改進不是來自模型結構變化，而是數據工程的全面重構。我們構建了業界領先的數據處理管線：

自研情緒標註ASR模型：全球情緒標註精度第一，能準確識別和標註語音中的情感、副語言（笑聲、停頓、強調等）信息。

聲音分離模型：從嘈雜的多人對話中準確分離每個說話人的聲音，保留傳統流程中會被丟棄的高表現力"髒數據"。

RLHF強化學習管線：結合線上用戶反饋數據構建偏好數據集，訓練Reward Model，讓模型持續優化。Fish Audio是業界唯一建立完整live RLHF做audio preference alignment的語音平臺。

全球Native Speaker標註團隊：專門組建的多語種母語標註團隊，確保數據的正確性和自然性。

架構優勢：端到端是未來

Fish Audio S2採用端到端自迴歸架構，將語義信息和聲學信息統一建模。相比傳統級聯方案（文本→語義token→聲學特徵→波形），端到端方案具有三大優勢：

✓

表現力更強：語義和聲學信息聯合建模，天然捕捉更豐富的韻律和情感變化。

✓

延遲更低：無需等待中間模塊處理，從第一個token即可開始解碼。

✓

天然多說話人：架構原生支持多說話人場景，無需額外模塊處理說話人切換。

這也是千問TTS、SESAME等新一代模型不約而同選擇的架構方向。Fish Audio在這條路線上擁有最久的工程積累和數據優勢。

開源承諾：S2將完全開源

S2模型將完全開源。繼S1 Mini開源後，Fish Audio將繼續踐行開源理念，讓開發者可以本地部署、測試和集成。超過10萬GitHub Stars的開源社區將率先體驗S2的強大能力。

應用場景：釋放AI語音的無限可能

🎙️

內容創作

有聲書、播客、視頻配音、ASMR——S2 Pro為專業創作者提供接近真人的情感表達。

💬

AI陪伴與社交

為Character.AI等AI社交應用提供有溫度的聲音，讓AI對話不再冰冷。

🎮

遊戲與娛樂

NPC對話、角色配音、VTuber——多說話人支持讓遊戲世界更加生動。

📞

實時語音客服

S2 Flash的低延遲和高穩定性，完美適配客服、銷售和教育場景。

🌍

跨語言內容

支持13+語言的聲音克隆，一次訓練多語言使用，輕鬆創作全球化內容。

S1 vs S2：一目瞭然的升級

特性	S1	S2
情感控制	基礎情感標籤	開放域情感描述 + 混合情緒
多說話人	單說話人為主	原生多說話人支持
延遲	標準	超低延遲（30-50ms目標）
數據管線	第一代	全面重構 + 自研ASR
後訓練	基礎RLHF	Live RLHF + 多維Reward Model
開源	S1 Mini開源	S2完全開源
模型矩陣	單一模型	Pro + Flash雙版本

發佈時間線

3月10日

2026

Fish Audio S2模型將於2026年3月10日正式上線。屆時S2 Pro和S2 Flash將同步開放使用，開發者可通過API接入或在Fish Audio平臺直接體驗。開源版本也將在上線後推出。

立即註冊Fish Audio賬號，第一時間體驗S2模型的強大能力。