語音合成精細控制

對語音生成進行高級控制

開始使用

要使用精細控制功能,可能會降低閱讀數字、日期和URL的穩定性。您需要手動處理這些情況以獲得最佳效果。

音素控制

音素控制允許您為單詞或字符指定精確的發音。目前支持:

  • CMU Arpabet (英語)
  • 拼音 (中文)

使用音素控制時,請將所需發音包含在 <|phoneme_start|> 和 <|phoneme_end|> 標籤中。每個標籤應包含一個單詞或字符。

示例

標準(英): I am an engineer.

帶控制(英): I am an <|phoneme_start|>EH N JH AH N IH R<|phoneme_end|>.

標準: 我是一個工程師。

控制: 我是一個<|phoneme_start|>gong1<|phoneme_end|><|phoneme_start|>cheng2<|phoneme_end|><|phoneme_start|>shi1<|phoneme_end|>。

副語言控制

副語言控制允許您添加自然語音元素和停頓,使生成的語音聽起來更像人類。主要有兩種類型的控制:

停頓詞

您可以使用常見的停頓詞如"嗯"、"啊"、"um"、"uh"來控制語音的節奏。

特殊效果

以下特殊效果可以使用括號添加:

效果說明首次可用階段
(break)短暫停頓V2實驗性
(long-break)延長停頓V2實驗性
(breath)呼吸聲V2實驗性
(laugh)笑聲V2實驗性
(cough)咳嗽聲V2實驗性
(lip-smacking)咂嘴聲V2實驗性
(sigh)嘆息聲V2實驗性

效果 (laugh)、(cough)、(lip-smacking) 和 (sigh) 正在開發中。您可能需要重複多次以獲得更好的效果。

英文示例:

標準(英文): I am an engineer.

帶副語言(英文): I am, um, an (break) engineer.

中文示例:

標準: 我是一名工程師。

添加副語言: 我,嗯,是一名(break)工程師。