音声クローン チュートリアル
テキスト読み上げのきめ細かい制御
音声生成の高度な制御
はじめに
正規化を無効にすると、数字・日付・URL の読み上げが不安定になることがあります。最適な結果のため、これらは手動で調整してください。
音素制御
音素制御では、単語や文字の発音を正確に指定できます。現在サポートしているのは次のとおりです。
- CMU Arpabet(英語)
- ピンイン(中国語)
音素制御を使う場合は、発音を <|phoneme_start|> と <|phoneme_end|> で囲みます。各タグには単語または文字を 1 つだけ入れてください。
例
標準(英): I am an engineer.
制御あり(英): I am an <|phoneme_start|>EH N JH AH N IH R<|phoneme_end|>.
標準: 我是一个工程师。
制御: 我是一个<|phoneme_start|>gong1<|phoneme_end|><|phoneme_start|>cheng2<|phoneme_end|><|phoneme_start|>shi1<|phoneme_end|>。
パラ言語
パラ言語制御では、自然な発話要素や間を加え、より人間らしい音声にできます。主に次の 2 種類があります。
フィラー・間投詞
「um」「uh」「嗯」「啊」などの一般的なフィラーで、話すリズムを調整できます。
特殊効果
次の特殊効果は括弧で追加できます。
| 効果 | 説明 | 初対応 | 段階 |
|---|---|---|---|
| (break) | 短い間 | V2 | 実験的 |
| (long-break) | 長い間 | V2 | 実験的 |
| (breath) | 呼吸音 | V2 | 実験的 |
| (laugh) | 笑い声 | V2 | 実験的 |
| (cough) | 咳 | V2 | 実験的 |
| (lip-smacking) | 唇を鳴らす音 | V2 | 実験的 |
| (sigh) | ため息 | V2 | 実験的 |
(laugh)、(cough)、(lip-smacking)、(sigh) は開発中です。効果を出しやすくするには繰り返しを試してください。
英語の例:
標準: I am an engineer.
パラ言語あり: I am, um, an (break) engineer.
中国語の例:
標準: 我是一名工程师。
パラ言語を追加: 我,嗯,是一名(break)工程师。