聲音克隆教程
語音合成精細控制
對語音生成進行高級控制
開始使用
要使用精細控制功能,可能會降低閱讀數字、日期和URL的穩定性。您需要手動處理這些情況以獲得最佳效果。
音素控制
音素控制允許您為單詞或字符指定精確的發音。目前支持:
- CMU Arpabet (英語)
- 拼音 (中文)
使用音素控制時,請將所需發音包含在 <|phoneme_start|> 和 <|phoneme_end|> 標籤中。每個標籤應包含一個單詞或字符。
示例
標準(英): I am an engineer.
帶控制(英): I am an <|phoneme_start|>EH N JH AH N IH R<|phoneme_end|>.
標準: 我是一個工程師。
控制: 我是一個<|phoneme_start|>gong1<|phoneme_end|><|phoneme_start|>cheng2<|phoneme_end|><|phoneme_start|>shi1<|phoneme_end|>。
副語言控制
副語言控制允許您添加自然語音元素和停頓,使生成的語音聽起來更像人類。主要有兩種類型的控制:
停頓詞
您可以使用常見的停頓詞如"嗯"、"啊"、"um"、"uh"來控制語音的節奏。
特殊效果
以下特殊效果可以使用括號添加:
| 效果 | 說明 | 首次可用 | 階段 |
|---|---|---|---|
| (break) | 短暫停頓 | V2 | 實驗性 |
| (long-break) | 延長停頓 | V2 | 實驗性 |
| (breath) | 呼吸聲 | V2 | 實驗性 |
| (laugh) | 笑聲 | V2 | 實驗性 |
| (cough) | 咳嗽聲 | V2 | 實驗性 |
| (lip-smacking) | 咂嘴聲 | V2 | 實驗性 |
| (sigh) | 嘆息聲 | V2 | 實驗性 |
效果 (laugh)、(cough)、(lip-smacking) 和 (sigh) 正在開發中。您可能需要重複多次以獲得更好的效果。
英文示例:
標準(英文): I am an engineer.
帶副語言(英文): I am, um, an (break) engineer.
中文示例:
標準: 我是一名工程師。
添加副語言: 我,嗯,是一名(break)工程師。