TTS 模型指南2026-03-19·6 分鐘閱讀

小米 MiMo-V2-TTS：文本驅動的高表達 TTS

從自由文本風格指令到非語言事件與演唱能力：MiMo-V2-TTS 把“表達”做成了真正的語音生成能力。

查看官方介紹 →去 API Playground 看請求示例 →

為什麼 MiMo 不只是傳統 TTS？

自由文本風格指令

用自然語言描述情緒、語速、音色質感與表演意圖；模型會把描述解析為生成方式。

上下文情緒與韻律推斷

不只是“貼標籤”，而是根據文本語義與語境調整語調、節奏與表達。

非語言事件更自然

停頓、猶豫、嘆氣、咳嗽、笑聲等“表演層信息”可以融入生成過程。

同一模型支持演唱

官方強調具備演唱/唱歌能力，並在同一模型中完成說話與唱歌生成。

如果你的站點核心是“配音工作流”，那麼 MiMo 的價值就在於：你可以把“情感與表演細節”寫進文本，而不是依賴下拉框。

如何寫風格指令（可直接複用到你的工作流）

建議你把風格描述拆成三塊：情緒/語速/表演強度 + 聲音質感 +（可選）非語言事件。

快速示例

生氣：語速偏快，試圖壓住怒火；多一點短停連與呼氣；句末不要爆發。

耳語/輕聲

悄悄話：貼近耳語，語速慢，聲音更輕；帶輕微停頓與“短促笑一下”（不誇張）。

加入非語言事件

我就知道……（長嘆一口氣）你又把事情搞砸了。（停頓兩秒）不過沒關係，我們重新來。

把這些指令作為你站內“風格模板”。當你未來接入 MiMo 時，只需要把模板映射到 MiMo 對應的字段或控制方式即可。

接入/產品化：我們建議的映射思路

1) 新增 MiMo 作為 provider/model

在你的模型配置中增加 `provider=mimo`（以及對應的模型標識），讓用戶可以從模型選擇器中選中 MiMo。

2) 把“自由風格指令”統一成你的輸入字段

如果你現在已經有 `emotion/language/speed/volume`，就用“拼接策略”生成 MiMo 的風格描述；或者新增一個“stylePrompt”字段走直通邏輯。

3) 在計費/配額裡按可用字符與任務大小治理

不同 provider 的生成成本不同。建議先按字符長度或估算時長建立計費係數，再根據實際生成結果逐步校準。

4) 用 FAQ/示例降低學習成本

SEO 流量進入後，最重要的是“可複製的寫法”。在頁面給出可用示例、標記解釋與常見問題。

FAQ

MiMo-V2-TTS 的風格控制方式是什麼？

它強調用“自由文本風格指令”來描述語音的情緒、語速、音色質感和表演方式，而不是隻選一個固定的情緒標籤。

它能生成停頓、呼吸、咳嗽、笑聲等非語言事件嗎？

官方頁面展示了用文本標記來引導停頓、猶豫、嘆氣、咳嗽、笑聲等非語言事件，從而讓語音更自然、更有表演張力。

MiMo-V2-TTS 支持演唱/唱歌能力嗎？

官方介紹它具備演唱/唱歌合成能力，並且在同一模型中完成說話與演唱生成。

魚聲配音工具站什麼時候支持 MiMo-V2-TTS？

我們正在規劃 provider 對接、字段映射與計費/額度治理。建議你關注文檔與更新公告；同時你也可以先把本文的“風格指令寫法”用於構建自己的 prompt 規範。