التعرف الآلي على الكلام (ASR)
التقنية
التعرف الآلي على الكلام (ASR) هو العملية التي بموجبها تتعرف الآلات على المُدخلات الصوتية. يجمع نظام صخر للتعرف الآلي على الكلام بين أحدث وأفضل محركات التعرف وقواعد البيانات اللغوية الضخمة التي تعتمد على اللغة والبيئة، بالإضافة إلى واجهات برمجة تطبيقات المتقدمة والمهيأة لتلبية احتياجات العميل والسوق، مع وجود أدوات إضافية لتطوير التطبيقات.
المحركات
وتتضمن محركات التعرف ثلاث مجموعات للمعالجة: معالجة الإشارات والملائمة السمعية والبرمجة الديناميكية. تتألف كل مجموعة من خيارات متعددة لملائمة التكوين الأمثل، وذلك بناءً على المصادر المتاحة والوظيفية.
معالجة الإشارات
يتم تنشيط مستكشف السكون الخاص بالنظام في مرحلة معالجة الإشارات كما يتم استخراج المعلومات السمعية/الصوتية المناسبة من الإشارات الواردة. وتكون اللوغاريتمات قوية سمعياً نتيجة التكيف لموائمة قناة التسجيل وخفض الضوضاء الموجودة في خلفية المكتب أو الهاتف للارتقاء بمستوى الأداء.
المطابقة السمعية
في مرحلة المطابقة السمعية يتم حساب قيمة مطابقة محتملة بين متجه الخاصية المميزة وأصغر الوحدات السمعية الصوتية التي يستطيع المتعرف تمييزها.
وتعتمد نماذج صخر الإحصائية على حصر المتجهات والتي تتبعها نماذج الكثافة الموزعة Hidden Markov Models (HMM).
البرمجة الديناميكية
في مرحلة البرمجة الديناميكية يتم تطبيق استراتيجيات مختلفة للبحث والتمحيص بناء على حجم المفردات ومدى التعقيد النحوي للنص. ويتم هذا كله في نطاق القيود التي تتحكم في بناء الكلمات كتسلسل من الكلمات الفرعية وكيفية بناء الجمل من تسلسل للكلمات.
واجهة برمجة التطبيق وأدوات التطوير
تعتبر أدوات واجهات برمجة التطبيقات (API) وتحكمات ActiveX وأدوات تصميم التطبيقات جزءاً لا يتجزأ من منتجات صخر للتعرف. تختلف وظيفة واجهة برمجة التطبيقات تبعاً لمتطلبات السوق والهدف من استخدام المنتج النهائي. وتقدم واجهة برمجة التطبيقات طريقةً محددة بصورة جيدة للتحكم في محرك التعرف على الكلام.
يمكن للتطبيق تحديد وضع التعرف والتحكم في معامِلات محرك التعرف وتنشيط سياقات تعرف متعددة وتحديد المفردات الفرعية وتشغيل/إيقاف المحرك واسترجاع النتائج. وتعمل الوظائف الأخرى لواجهة برمجة التطبيقات على إدارة السياقات وقواميس الاستثناء الصوتية والبيئات، الخ. وبالإضافة إلى واجهة برمجة التطبيقات هناك أدوات أخرى لتصميم التطبيقات، مثل محرر المفردات الشخصية (أداة معجمية) (Personal Vocabulary Editor) تتميز بسرعة وسهولة إضافة الكلمات الجديدة للمفردات ومُجمّع نحو BNF (BNF Grammar Complier) الذي يتيح للمستخدم بناء نحو مخصص.
المزايا
المزايا متعددة وواسعة النطاق. يدعم محرك التعرف الذي لا يعتمد على صوت المتحدث اللغة العربية القياسية بمفردات قليلة ومتوسطة وعالية، بالإضافة إلى التعرف على الكلام المتواصل وأيضاً التعرف على الكلمة الواحدة ورصد الكلمة الأساسية والمداخلات. يعتمد دعم الأرقام المتواصلة والكلام المتواصل على النحو الذي يعرفه المستخدم. ويمكن كذلك التعرف على الحروف الهجائية. تعتمد المزايا المضمنة أو المستبعدة على متطلبات السوق واحتياجات المستخدم وخصائص المنتجات النهائية.
الأجهزة
قامت صخر بتوظيف التعرف وواجهات برمجة التطبيقات وأدوات التطوير لتعمل على عدد كبير من الأجهزة ونظم التشغيل بناءً على رغبة العميل. وتتراوح الحلول من Sound Blaster وCrystal، الخ، وبطاقات الصوت في إنتل Pentium III أو أعلى حتى بطاقات Dialogic Computer Telephony.
متجه المزايا: متجه يتضمن مزايا هامة تعكس خصائص الصوت البشري.
Hidden Markov Models (HMM): نموذج معامِلات يناسب على وجه الخصوص وصف أحداث الكلام.
السياقات: تتكون من معلومات لغوية عن دلالة الكلمات التي يتم التعرف عليها
رصد الكلمات الأساسية: ميزة تتيح للمتعرف تجاهل الكلمات المنطوقة، ما عدا تلك الكلمات التي يتم تحديدها ككلمات أساسية دالة.
المداخلة: ميزة تسمح للمتصل بمقاطعة البرنامج أثناء التشغيل والبدء في الكلام.