نموذج تحويل النص إلى كلام بتقنية البث المباشر من كيو تي أي: سرعة فائقة ودقة عالية
أعلنت مختبرات كيو تي أي (Kyutai)، وهي مختبر أبحاث الذكاء الاصطناعي مفتوح المصدر، عن إطلاق نموذج ثوري لتحويل النص إلى كلام (TTS) بتقنية البث المباشر، ويضم ما يقارب ملياري معلمة. صُمّم هذا النموذج للاستجابة في الوقت الفعلي، حيث يوفر توليدًا صوتيًا بتأخير منخفض للغاية (220 مللي ثانية) مع الحفاظ على جودة صوت عالية الدقة. وقد تم تدريبه على كمية غير مسبوقة من البيانات الصوتية تصل إلى 2.5 مليون ساعة، وهو مرخص بموجب رخصة المشاع الإبداعي (CC-BY-4.0)، مما يعزز التزام كيو تي أي بالانفتاح وإمكانية التكرار. يمثل هذا التقدم نقلة نوعية في كفاءة وسهولة الوصول إلى نماذج توليد الكلام واسعة النطاق، خاصةً لنشرها على الأجهزة الطرفية وفي أنظمة الذكاء الاصطناعي الوكيلية.
أداء متميز: تأخير أقل من 350 مللي ثانية لـ 32 مستخدمًا متزامنًا على وحدة معالجة رسوميات واحدة من طراز L40
تُعدّ قدرة النموذج على البث المباشر هي أهم ميزاته المميزة. فباستخدام وحدة معالجة رسوميات واحدة من طراز NVIDIA L40، يمكن للنظام خدمة ما يصل إلى 32 مستخدمًا متزامنًا مع الحفاظ على تأخير أقل من 350 مللي ثانية. أما بالنسبة للاستخدام الفردي، فيحافظ النموذج على تأخير توليد منخفض يصل إلى 220 مللي ثانية، مما يتيح تطبيقات تعمل تقريبًا في الوقت الفعلي، مثل المساعدين الافتراضيين، ووكلاء المحادثة، وأنظمة التعليق الصوتي المباشر. ويتم تحقيق هذا الأداء من خلال نهج كيو تي أي الجديد في “نمذجة التدفقات المؤجلة” (Delayed Streams Modeling)، والذي يسمح للنموذج بتوليد الكلام تدريجيًا مع وصول النص.
المقاييس التقنية الرئيسية:
- حجم النموذج: ~2 مليار معلمة
- بيانات التدريب: 2.5 مليون ساعة من الكلام
- التأخير: 220 مللي ثانية للمستخدم الواحد، <350 مللي ثانية مع 32 مستخدمًا على وحدة معالجة رسوميات L40 واحدة
- لغات الدعم: الإنجليزية والفرنسية
- الرخصة: CC-BY-4.0 (مفتوح المصدر)
نمذجة التدفقات المؤجلة: هندسة الاستجابة في الوقت الفعلي
تتمحور ابتكارات كيو تي أي حول “نمذجة التدفقات المؤجلة”، وهي تقنية تسمح ببدء توليد الكلام قبل توفر النص الكامل. صُممت هذه الطريقة خصيصًا لتحقيق التوازن بين جودة التنبؤ وسرعة الاستجابة، مما يتيح بثًا عالي الإنتاجية لتحويل النص إلى كلام. وعلى عكس النماذج التلقائية التراجعية التقليدية التي تعاني من تأخر الاستجابة، تحافظ هذه البنية على الاتساق الزمني مع تحقيق توليد أسرع من الوقت الفعلي. تتوفر قاعدة التعليمات البرمجية ووصفة التدريب لهذه البنية على مستودع كيو تي أي على جيثب، لدعم التكرار الكامل والمساهمات المجتمعية.
توفر النموذج والتزام البحث المفتوح
أصدرت كيو تي أي أوزان النموذج ونصوص الاستدلال على منصة Hugging Face، مما يجعلها متاحة للباحثين والمطورين والشركات. تشجع رخصة المشاع الإبداعي (CC-BY-4.0) على التكييف والدمج غير المقيد في التطبيقات، شريطة الحفاظ على الإسناد المناسب. يدعم هذا الإصدار كل من الاستدلال بالدفعات وبث البيانات، مما يجعله أساسًا متعدد الاستخدامات لاستنساخ الأصوات، والروبوتات الدردشة في الوقت الفعلي، وأدوات إمكانية الوصول، والمزيد. مع نماذج مُدرّبة مسبقًا باللغتين الإنجليزية والفرنسية، تُمهّد كيو تي أي الطريق لأنابيب تحويل النص إلى كلام متعددة اللغات.
الآثار المترتبة على تطبيقات الذكاء الاصطناعي في الوقت الفعلي
من خلال تقليل تأخير توليد الكلام إلى نطاق 200 مللي ثانية، يُضيق نموذج كيو تي أي الفجوة الزمنية الملحوظة بين النية والكلام، مما يجعله مناسبًا لما يلي:
- الذكاء الاصطناعي المحادثي: واجهات صوتية شبيهة بالبشر مع وقت استجابة قصير.
- تقنيات المساعدة: قارئات شاشة أسرع وأنظمة ردود فعل صوتية.
- إنتاج الوسائط: تعليقات صوتية مع دورات تكرار سريعة.
- الأجهزة الطرفية: استدلال مُحسّن للأجهزة منخفضة الطاقة أو الأجهزة المحمولة.
كما أن القدرة على خدمة 32 مستخدمًا على وحدة معالجة رسوميات L40 واحدة دون أي تدهور في الجودة تجعله جذابًا لتوسيع نطاق خدمات الكلام بكفاءة في بيئات الحوسبة السحابية.
الخلاصة: مفتوح، سريع، وجاهز للنشر
يُعد إصدار كيو تي أي لتحويل النص إلى كلام بتقنية البث المباشر علامة فارقة في مجال الذكاء الاصطناعي الصوتي. مع توليد عالي الجودة، وتأخير في الوقت الفعلي، ورخصة استخدام سخية، يلبي هذا النموذج الاحتياجات الحيوية للباحثين وفرق المنتجات في العالم الحقيقي. تُعد إمكانية تكرار النموذج، ودعم اللغات المتعددة، وأداءه القابل للتوسيع، بديلاً متميزًا للحلول التجارية. لمزيد من التفاصيل، يمكنك استعراض بطاقة النموذج الرسمية على Hugging Face، والشرح التقني على موقع كيو تي أي، والتفاصيل التنفيذية على جيثب.
اترك تعليقاً