テキスト読み上げのきめ細かい制御

音声生成の高度な制御

はじめに

正規化を無効にすると、数字・日付・URL の読み上げが不安定になることがあります。最適な結果のため、これらは手動で調整してください。

音素制御

音素制御では、単語や文字の発音を正確に指定できます。現在サポートしているのは次のとおりです。

  • CMU Arpabet(英語)
  • ピンイン(中国語)

音素制御を使う場合は、発音を <|phoneme_start|> と <|phoneme_end|> で囲みます。各タグには単語または文字を 1 つだけ入れてください。

標準(英): I am an engineer.

制御あり(英): I am an <|phoneme_start|>EH N JH AH N IH R<|phoneme_end|>.

標準: 我是一个工程师。

制御: 我是一个<|phoneme_start|>gong1<|phoneme_end|><|phoneme_start|>cheng2<|phoneme_end|><|phoneme_start|>shi1<|phoneme_end|>。

パラ言語

パラ言語制御では、自然な発話要素や間を加え、より人間らしい音声にできます。主に次の 2 種類があります。

フィラー・間投詞

「um」「uh」「嗯」「啊」などの一般的なフィラーで、話すリズムを調整できます。

特殊効果

次の特殊効果は括弧で追加できます。

効果説明初対応段階
(break)短い間V2実験的
(long-break)長い間V2実験的
(breath)呼吸音V2実験的
(laugh)笑い声V2実験的
(cough)V2実験的
(lip-smacking)唇を鳴らす音V2実験的
(sigh)ため息V2実験的

(laugh)、(cough)、(lip-smacking)、(sigh) は開発中です。効果を出しやすくするには繰り返しを試してください。

英語の例:

標準: I am an engineer.

パラ言語あり: I am, um, an (break) engineer.

中国語の例:

標準: 我是一名工程师。

パラ言語を追加: 我,嗯,是一名(break)工程师。