Controle fino de texto para fala
Controle avançado da geração de voz
Primeiros passos
Sem normalização, números, datas e URLs podem soar instáveis — ajuste manualmente se necessário.
Controle de fonemas
O controle de fonemas define pronúncias exatas. Suporte atual:
- CMU Arpabet (inglês)
- Pinyin (chinês)
Envolva a pronúncia entre <|phoneme_start|> e <|phoneme_end|>. Cada tag deve ter só uma palavra ou caractere.
Exemplos
Padrão: I am an engineer.
Com controle: I am an <|phoneme_start|>EH N JH AH N IH R<|phoneme_end|>.
Padrão (ZH): 我是一个工程师。
Com controle: 我是一个<|phoneme_start|>gong1<|phoneme_end|><|phoneme_start|>cheng2<|phoneme_end|><|phoneme_start|>shi1<|phoneme_end|>。
Paralinguagem
Paralinguagem adiciona pausas e vícios de linguagem para soar mais humano. Dois tipos principais:
Palavras de preenchimento
Use "um", "uh", "嗯", "啊" etc. para marcar o ritmo.
Efeitos especiais
Estes efeitos usam parênteses:
| Efeito | Descrição | Primeira versão | Estágio |
|---|---|---|---|
| (break) | Pausa curta | V2 | Experimental |
| (long-break) | Pausa longa | V2 | Experimental |
| (breath) | Respiração | V2 | Experimental |
| (laugh) | Risada | V2 | Experimental |
| (cough) | Tosse | V2 | Experimental |
| (lip-smacking) | Som de lábios | V2 | Experimental |
| (sigh) | Suspiro | V2 | Experimental |
(laugh), (cough), (lip-smacking) e (sigh) estão em desenvolvimento — repita se precisar.
Exemplo em inglês:
Padrão: I am an engineer.
Com paralinguagem: I am, um, an (break) engineer.
Exemplo em chinês:
Padrão: 我是一名工程师。
Com paralinguagem: 我,嗯,是一名(break)工程师。