TTS 模型指南2026-03-19·6 分鐘閱讀

小米 MiMo-V2-TTS:文本驅動的高表達 TTS

從自由文本風格指令到非語言事件與演唱能力:MiMo-V2-TTS 把“表達”做成了真正的語音生成能力。

為什麼 MiMo 不只是傳統 TTS?

自由文本風格指令

用自然語言描述情緒、語速、音色質感與表演意圖;模型會把描述解析為生成方式。

上下文情緒與韻律推斷

不只是“貼標籤”,而是根據文本語義與語境調整語調、節奏與表達。

非語言事件更自然

停頓、猶豫、嘆氣、咳嗽、笑聲等“表演層信息”可以融入生成過程。

同一模型支持演唱

官方強調具備演唱/唱歌能力,並在同一模型中完成說話與唱歌生成。

如果你的站點核心是“配音工作流”,那麼 MiMo 的價值就在於:你可以把“情感與表演細節”寫進文本,而不是依賴下拉框。

如何寫風格指令(可直接複用到你的工作流)

建議你把風格描述拆成三塊:情緒/語速/表演強度 + 聲音質感 +(可選)非語言事件。

快速示例

生氣:語速偏快,試圖壓住怒火;多一點短停連與呼氣;句末不要爆發。

耳語/輕聲

悄悄話:貼近耳語,語速慢,聲音更輕;帶輕微停頓與“短促笑一下”(不誇張)。

加入非語言事件

我就知道……(長嘆一口氣)你又把事情搞砸了。(停頓兩秒)不過沒關係,我們重新來。

把這些指令作為你站內“風格模板”。當你未來接入 MiMo 時,只需要把模板映射到 MiMo 對應的字段或控制方式即可。

接入/產品化:我們建議的映射思路

1) 新增 MiMo 作為 provider/model

在你的模型配置中增加 `provider=mimo`(以及對應的模型標識),讓用戶可以從模型選擇器中選中 MiMo。

2) 把“自由風格指令”統一成你的輸入字段

如果你現在已經有 `emotion/language/speed/volume`,就用“拼接策略”生成 MiMo 的風格描述;或者新增一個“stylePrompt”字段走直通邏輯。

3) 在計費/配額裡按可用字符與任務大小治理

不同 provider 的生成成本不同。建議先按字符長度或估算時長建立計費係數,再根據實際生成結果逐步校準。

4) 用 FAQ/示例降低學習成本

SEO 流量進入後,最重要的是“可複製的寫法”。在頁面給出可用示例、標記解釋與常見問題。

FAQ

MiMo-V2-TTS 的風格控制方式是什麼?

它強調用“自由文本風格指令”來描述語音的情緒、語速、音色質感和表演方式,而不是隻選一個固定的情緒標籤。

它能生成停頓、呼吸、咳嗽、笑聲等非語言事件嗎?

官方頁面展示了用文本標記來引導停頓、猶豫、嘆氣、咳嗽、笑聲等非語言事件,從而讓語音更自然、更有表演張力。

MiMo-V2-TTS 支持演唱/唱歌能力嗎?

官方介紹它具備演唱/唱歌合成能力,並且在同一模型中完成說話與演唱生成。

魚聲配音工具站什麼時候支持 MiMo-V2-TTS?

我們正在規劃 provider 對接、字段映射與計費/額度治理。建議你關注文檔與更新公告;同時你也可以先把本文的“風格指令寫法”用於構建自己的 prompt 規範。

相關入口