Fish Audio S2 模型發佈:AI語音合成進入2.0時代
更自然的情感表達、更精細的控制能力、更低的延遲——Fish Audio S2開啟AI語音新紀元
Fish Audio 即將發佈全新一代 S2 模型,這是繼 S1 之後的一次重大飛躍。S2 在情感控制、多說話人支持和延遲優化上實現了全面突破,標誌著AI語音合成正式進入2.0時代。
為什麼需要 S2?AI語音的下一個躍遷
過去一年,Fish Audio 憑藉 S1 模型成為全球第二大AI語音平臺,積累了350萬用戶和110萬UGC聲音模型,實現了1000萬美元ARR。S1作為世界首個支持自然語言情感控制的TTS模型,已經證明了端到端語音建模的巨大潛力。
然而,S1只是起點。我們正進入AI Voice 2.0的技術爆發期——從傳統的逐字逐句的播報式語音,進化到具備真實情感、交互式、有靈魂的AI聲音。S2正是這一變革的核心載體。
S2 核心升級:三大維度全面突破
更精細的情感控制
S2實現了開放域情感標註,從簡單的"高興"、"悲傷"到複雜的"帶著憤怒和悲傷"等混合情緒,都能精準表達。這得益於我們自研的全球領先情緒標註ASR模型,讓預訓練數據天然攜帶準確的情感標籤。
原生多說話人支持
S2架構天然支持多說話人場景,每個片段都帶有精準的說話人標籤(speaker tag)。無論是多人播客、有聲書對白還是遊戲NPC對話,都能實現自然流暢的多角色切換。
超低延遲
基於端到端架構,S2理論上只需第一個token生成完就可以開始音頻解碼,延遲可壓縮到極致。我們還將發佈去掉Vocoder的全新模型,實現從文本到波形的完整端到端建模,有望將延遲降至30~50毫秒。
S2 模型矩陣:為不同場景量身定製
Fish Audio不追求單一大模型,而是打造針對不同商業場景的模型矩陣:
旗艦內容生成模型,專為追求極致聲音質量和情感表達力的場景設計。適用於有聲書、播客、影視配音、ASMR等內容創作,在自然度和表現力上達到新高度。
4B參數企業級模型,專為實時客服對話場景優化。擁有更低的延遲和更高的穩定性,是AI陪伴社交、實時語音客服、銷售機器人和教育場景的理想選擇。
技術突破:數據驅動的革命
S2的核心改進不是來自模型結構變化,而是數據工程的全面重構。我們構建了業界領先的數據處理管線:
自研情緒標註ASR模型:全球情緒標註精度第一,能準確識別和標註語音中的情感、副語言(笑聲、停頓、強調等)信息。
聲音分離模型:從嘈雜的多人對話中準確分離每個說話人的聲音,保留傳統流程中會被丟棄的高表現力"髒數據"。
RLHF強化學習管線:結合線上用戶反饋數據構建偏好數據集,訓練Reward Model,讓模型持續優化。Fish Audio是業界唯一建立完整live RLHF做audio preference alignment的語音平臺。
全球Native Speaker標註團隊:專門組建的多語種母語標註團隊,確保數據的正確性和自然性。
架構優勢:端到端是未來
Fish Audio S2採用端到端自迴歸架構,將語義信息和聲學信息統一建模。相比傳統級聯方案(文本→語義token→聲學特徵→波形),端到端方案具有三大優勢:
表現力更強:語義和聲學信息聯合建模,天然捕捉更豐富的韻律和情感變化。
延遲更低:無需等待中間模塊處理,從第一個token即可開始解碼。
天然多說話人:架構原生支持多說話人場景,無需額外模塊處理說話人切換。
這也是千問TTS、SESAME等新一代模型不約而同選擇的架構方向。Fish Audio在這條路線上擁有最久的工程積累和數據優勢。
開源承諾:S2將完全開源
S2模型將完全開源。繼S1 Mini開源後,Fish Audio將繼續踐行開源理念,讓開發者可以本地部署、測試和集成。超過10萬GitHub Stars的開源社區將率先體驗S2的強大能力。
應用場景:釋放AI語音的無限可能
內容創作
有聲書、播客、視頻配音、ASMR——S2 Pro為專業創作者提供接近真人的情感表達。
AI陪伴與社交
為Character.AI等AI社交應用提供有溫度的聲音,讓AI對話不再冰冷。
遊戲與娛樂
NPC對話、角色配音、VTuber——多說話人支持讓遊戲世界更加生動。
實時語音客服
S2 Flash的低延遲和高穩定性,完美適配客服、銷售和教育場景。
跨語言內容
支持13+語言的聲音克隆,一次訓練多語言使用,輕鬆創作全球化內容。
S1 vs S2:一目瞭然的升級
| 特性 | S1 | S2 |
|---|---|---|
| 情感控制 | 基礎情感標籤 | 開放域情感描述 + 混合情緒 |
| 多說話人 | 單說話人為主 | 原生多說話人支持 |
| 延遲 | 標準 | 超低延遲(30-50ms目標) |
| 數據管線 | 第一代 | 全面重構 + 自研ASR |
| 後訓練 | 基礎RLHF | Live RLHF + 多維Reward Model |
| 開源 | S1 Mini開源 | S2完全開源 |
| 模型矩陣 | 單一模型 | Pro + Flash雙版本 |
發佈時間線
Fish Audio S2模型將於2026年3月10日正式上線。屆時S2 Pro和S2 Flash將同步開放使用,開發者可通過API接入或在Fish Audio平臺直接體驗。開源版本也將在上線後推出。
立即註冊Fish Audio賬號,第一時間體驗S2模型的強大能力。