محرك صخر للنطق الآلي للنصوص (TTS)

التقنية
تقوم تقنية النطق الآلي للنصوص (TTS) بتحويل أي نص إلكتروني مقروء إلى كلام منطوق بصوت بشري مركب. ومن الجدير بالذكر أن اللغة العربية أصعب من اللغات الأخرى الشائعة نظراً لعدم استخدام علامات التشكيل، وهي عبارة عن حركات توضع على الحروف لنطقها بطريقة صحيحة.

من أكبر العقبات التي واجهت تطوير تقنية النطق الآلي للنصوص العربية هي غياب التشكيل عن معظم النصوص العربية. لذا، تم تكامل المشكل الآلي من صخر مع محرك مركب النطق لإنتاج نظام حقيقي حيث يمثل النص العربي غير المشكل المدخلات بينما يمثل النطق ذو الجودة الفائقة المخرجات. وبدون المشكل الآلي، يصبح توليد مثل هذه المخرجات أمراً مستحيلاً نظراً لتعدد طرق نطق معظم الكلمات دون تشكيل. وقد لجأت صخر إلى استخدام هذا المشكل الفريد بهدف توفير التشكيل المناسب لمركب TTS بحيث يمكنه إنتاج صوت طبيعي مفهوم.

يتكون محرك صخر للنطق الآلي للنصوص (TTS) من ثلاثة وحدات رئيسية. الوحدة اللغوية وتقوم بتحويل النص الذي تم إدخاله إلى رموز صوتية. أما الوحدة الصوتية فتقوم بحساب معاملات النطق أما الوحدة السمعية فتستخدم هذه المعاملات لتوليد إشارات نطق مركبة.

الوحدة اللغوية
تتألف هذه الوحدة من أربعة أجزاء: قراءة الاختصارات والأرقام وتحويل شكل الحرف إلى صوت (G2P) والتحليل اللغوي والتحليل الإعرابي. تساعد خاصية قراءة الاختصارات والأرقام على التعامل مع كل من اختصارات اللغة والتواريخ والعملات والمؤشرات الزمنية وأرقام الهواتف والرموز الخاصة الأخرى، والتعامل مع علامات الاقتباس والأقواس والفاصلة العليا وعلامات الترقيم. وبعد تحويل أشكال الحروف إلى أصوات، يقوم النظام بفك اللبس في النطق من خلال التحليل اللغوي والإعرابي كما يحدد تنغيم كل جملة. ويكون الناتج هو التمثيل الصوتي للنص المدخل.

الوحدة الصوتية
تقوم الوحدة الصوتية بتنفيذ التركيب المقطعي وإنشاء نماذج تنغيم فائقة الجودة. ولإنشاء نطق مركب، يتميز محرك صخر بمرونة كافية لاستخدام مقاطع النطق الملائمة مثل الصوت الثنائي والثلاثي والرباعي وغير ذلك. تحافظ هذه المقاطع المستمدة من النطق البشري على تحولات الصوت وكذلك تأثيرات النطق المشترك. وبترتيب مقاطع النطق بشكل متسلسل، يتم الحصول على نطق مركب فائق الجودة. ولتركيب نطق بصوت طبيعي ومفهوم، يجب إنشاء سمات تنغيم جيدة، ويتم ذلك من خلال إنتاج منحنيات صحيحة لنغمة الصوت وتخصيص الفترة الزمنية الصحيحة لكل صوت.

الوحدة السمعية
تقوم الوحدة السمعية بتحويل بيانات النطق التي تم إنشاؤها من قبل إلى إشارات نطق. يعتمد ترتيب مقاطع النطق وتركيب النغمات على أحدث أساليب التركيب. ويكون الناتج مصفوفة من نماذج الموجات ذات معدلات تتراوح بين 8 و44 كيلوهرتز لتغطي مدى واسع من الجودة والتطبيقات بدءً من الإرسال التليفوني حتى جودة الأسطوانات المدمجة الصوتية.

أدوات التطوير وواجهة برمجة التطبيقات
واجهات برمجة التطبيقات (API) متوفرة لعملاء صخر على هيئة عدة تطوير برمجيات (SDK) وتحكمات ActiveX وكائنات COM. تختلف وظيفة واجهات برمجة التطبيقات تبعاً للسوق والهدف من المنتج النهائي. ومن وظائف واجهات برمجة التطبيقات توفير طريقة لمطور التطبيق لبدء وإيقاف تركيب النطق وتحديد قواميس الاستثناءات الصحيحة وكذلك تحميل التطبيق واللغة المناسبين. بالإضافة إلى واجهات برمجة التطبيقات، توجد أدوات أخرى لتصميم التطبيقات مثل محرر لتطوير قواميس الاستثناءات الشخصية، كما تتوفر SAPI 4 وSAPI 5.1 بناء على طلب العميل.

المزايا

تعدد الأجهزة
عملت صخر على توفير محرك النطق الآلي للنصوص وواجهات برمجة التطبيقات وأدوات تطوير التطبيقات لمدي واسع من الأجهزة. فعلى سبيل المثال، تدعم صخر نظام كامل لأجهزة إنتل Pentium III أو أعلى ولوحات Computer Telephony ونظم تشغيل Audiotext.

الوصف الصوتي: تمثيل الكلمات المكتوبة برموز صوتية
G2P: القواعد التي تحول الحروف إلى رموز صوتية
الصوت الثنائي: مقطع لفظي ثنائي الصوت
الصوت الثلاثي: مقطع لفظي ثلاثي الصوت
الصوت الرباعي: مقطع لفظي رباعي الصوت
قواميس الاستثناءات: قاموس بالكلمات الدخيلة