Точный контроль синтеза речи
Расширенное управление генерацией речи
С чего начать
Без нормализации числа, даты и URL могут читаться менее стабильно — при необходимости правьте вручную.
Управление фонемами
Фонемный контроль задаёт точное произношение. Сейчас поддерживается:
- CMU Arpabet (английский)
- Пиньинь (китайский)
Оборачивайте произношение в <|phoneme_start|> и <|phoneme_end|>. В каждом теге одно слово или иероглиф.
Примеры
Эталон: I am an engineer.
С управлением: I am an <|phoneme_start|>EH N JH AH N IH R<|phoneme_end|>.
Эталон (кит.): 我是一个工程师。
С управлением: 我是一个<|phoneme_start|>gong1<|phoneme_end|><|phoneme_start|>cheng2<|phoneme_end|><|phoneme_start|>shi1<|phoneme_end|>。
Параязык
Параязыковые метки добавляют паузы и слова-паразиты для более естественной речи. Два основных типа:
Слова-паразиты
Используйте «um», «uh», «嗯», «啊» и т. п. для ритма.
Спецэффекты
Эти эффекты задаются в скобках:
| Эффект | Описание | Первая версия | Стадия |
|---|---|---|---|
| (break) | Короткая пауза | V2 | Экспериментально |
| (long-break) | Длинная пауза | V2 | Экспериментально |
| (breath) | Звук дыхания | V2 | Экспериментально |
| (laugh) | Смех | V2 | Экспериментально |
| (cough) | Кашель | V2 | Экспериментально |
| (lip-smacking) | Звук губ | V2 | Экспериментально |
| (sigh) | Вздох | V2 | Экспериментально |
Эффекты (laugh), (cough), (lip-smacking) и (sigh) в разработке — при необходимости повторяйте.
Пример (англ.):
Эталон: I am an engineer.
С параязыком: I am, um, an (break) engineer.
Пример (кит.):
Эталон: 我是一名工程师。
С параязыком: 我,嗯,是一名(break)工程师。