小米 MiMo-V2-TTS:文本驅動的高表達 TTS
從自由文本風格指令到非語言事件與演唱能力:MiMo-V2-TTS 把“表達”做成了真正的語音生成能力。
為什麼 MiMo 不只是傳統 TTS?
自由文本風格指令
用自然語言描述情緒、語速、音色質感與表演意圖;模型會把描述解析為生成方式。
上下文情緒與韻律推斷
不只是“貼標籤”,而是根據文本語義與語境調整語調、節奏與表達。
非語言事件更自然
停頓、猶豫、嘆氣、咳嗽、笑聲等“表演層信息”可以融入生成過程。
同一模型支持演唱
官方強調具備演唱/唱歌能力,並在同一模型中完成說話與唱歌生成。
如果你的站點核心是“配音工作流”,那麼 MiMo 的價值就在於:你可以把“情感與表演細節”寫進文本,而不是依賴下拉框。
如何寫風格指令(可直接複用到你的工作流)
建議你把風格描述拆成三塊:情緒/語速/表演強度 + 聲音質感 +(可選)非語言事件。
快速示例
生氣:語速偏快,試圖壓住怒火;多一點短停連與呼氣;句末不要爆發。
耳語/輕聲
悄悄話:貼近耳語,語速慢,聲音更輕;帶輕微停頓與“短促笑一下”(不誇張)。
加入非語言事件
我就知道……(長嘆一口氣)你又把事情搞砸了。(停頓兩秒)不過沒關係,我們重新來。
把這些指令作為你站內“風格模板”。當你未來接入 MiMo 時,只需要把模板映射到 MiMo 對應的字段或控制方式即可。
接入/產品化:我們建議的映射思路
1) 新增 MiMo 作為 provider/model
在你的模型配置中增加 `provider=mimo`(以及對應的模型標識),讓用戶可以從模型選擇器中選中 MiMo。
2) 把“自由風格指令”統一成你的輸入字段
如果你現在已經有 `emotion/language/speed/volume`,就用“拼接策略”生成 MiMo 的風格描述;或者新增一個“stylePrompt”字段走直通邏輯。
3) 在計費/配額裡按可用字符與任務大小治理
不同 provider 的生成成本不同。建議先按字符長度或估算時長建立計費係數,再根據實際生成結果逐步校準。
4) 用 FAQ/示例降低學習成本
SEO 流量進入後,最重要的是“可複製的寫法”。在頁面給出可用示例、標記解釋與常見問題。
FAQ
MiMo-V2-TTS 的風格控制方式是什麼?
它強調用“自由文本風格指令”來描述語音的情緒、語速、音色質感和表演方式,而不是隻選一個固定的情緒標籤。
它能生成停頓、呼吸、咳嗽、笑聲等非語言事件嗎?
官方頁面展示了用文本標記來引導停頓、猶豫、嘆氣、咳嗽、笑聲等非語言事件,從而讓語音更自然、更有表演張力。
MiMo-V2-TTS 支持演唱/唱歌能力嗎?
官方介紹它具備演唱/唱歌合成能力,並且在同一模型中完成說話與演唱生成。
魚聲配音工具站什麼時候支持 MiMo-V2-TTS?
我們正在規劃 provider 對接、字段映射與計費/額度治理。建議你關注文檔與更新公告;同時你也可以先把本文的“風格指令寫法”用於構建自己的 prompt 規範。