تحكم دقيق في تحويل النص إلى كلام

تحكم متقدم في توليد الصوت

البدء

تعطيل التطبيع قد يقلل ثبات قراءة الأرقام والتواريخ والروابط — عالجها يدويًا عند الحاجة.

التحكم بالفونيمات

يتيح تحديد النطق بدقة. الدعم الحالي:

  • CMU Arpabet (الإنجليزية)
  • البينيين (الصينية)

ضع النطق بين <|phoneme_start|> و <|phoneme_end|>. كل وسم يحتوي كلمة أو حرفًا واحدًا.

أمثلة

قياسي: I am an engineer.

مع تحكم: I am an <|phoneme_start|>EH N JH AH N IH R<|phoneme_end|>.

قياسي (ص): 我是一个工程师。

مع تحكم: 我是一个<|phoneme_start|>gong1<|phoneme_end|><|phoneme_start|>cheng2<|phoneme_end|><|phoneme_start|>shi1<|phoneme_end|>。

شبه لغوي

تضيف وسوم شبه لغوية توقفات وكلمات حشو لتبدو الكلامة أكثر طبيعية. نوعان رئيسيان:

كلمات حشو

استخدم "um" و"uh" و"嗯" و"啊" وغيرها لضبط الإيقاع.

مؤثرات خاصة

تُضاف هذه المؤثرات بين أقواس:

المؤثرالوصفأول إصدارالمرحلة
(break)توقف قصيرV2تجريبي
(long-break)توقف أطولV2تجريبي
(breath)صوت تنفسV2تجريبي
(laugh)ضحكV2تجريبي
(cough)سعالV2تجريبي
(lip-smacking)صوت شفاهV2تجريبي
(sigh)تنهدV2تجريبي

المؤثرات (laugh) و(cough) و(lip-smacking) و(sigh) قيد التطوير — كررها عند الحاجة.

مثال إنجليزي:

قياسي: I am an engineer.

مع شبه لغوي: I am, um, an (break) engineer.

مثال صيني:

قياسي: 我是一名工程师。

مع شبه لغوي: 我,嗯,是一名(break)工程师。