مايكروسوفت تطلق نموذجين جديدين للذكاء الاصطناعي: MAI-Voice-1 و MAI-1-Preview
أعلنت مختبرات الذكاء الاصطناعي في مايكروسوفت مؤخراً عن إطلاق نموذجين جديدين هما MAI-Voice-1 و MAI-1-Preview، مما يُمثل مرحلة جديدة في جهود الشركة البحثية والتطويرية في مجال الذكاء الاصطناعي. ويُبرز هذا الإعلان قدرة مايكروسوفت على تطوير تقنيات الذكاء الاصطناعي المتقدمة بشكلٍ ذاتي، دون الاعتماد على جهات خارجية. يُقدّم النموذجان أدوارًا متكاملة ومترابطة في توليد الكلام وفهم اللغة الطبيعية على حد سواء.
نموذج MAI-Voice-1: التفاصيل التقنية والإمكانيات
يُعدّ MAI-Voice-1 نموذجًا لتوليد الكلام عالي الدقة، قادرًا على إنتاج دقيقة واحدة من الصوت الطبيعي في أقل من ثانية واحدة باستخدام وحدة معالجة رسومية واحدة (GPU). هذه الكفاءة العالية تجعله مثاليًا لتطبيقات تتطلب استجابة سريعة، مثل المساعدين التفاعليين ورواية البودكاست، مع الحد الأدنى من متطلبات الأجهزة.
- الخصائص الرئيسية:
- توليد صوت عالي الجودة وطبيعي.
- سرعة عالية في توليد الصوت.
- دعم اللغات المتعددة.
- القدرة على التعامل مع أصوات المتحدثين المفردين والمتعددين.
- دمج سلس مع منتجات مايكروسوفت مثل Copilot Daily.
يعتمد النموذج على بنية مُحوّل (Transformer) مُدرّب على مجموعة بيانات صوتية متعددة اللغات، مما يُمكّنه من تقديم مخرجات صوتية تعبيرية ومناسبة للسياق. ويتميز MAI-Voice-1 بدمجه في منتجات مايكروسوفت مثل Copilot Daily لتقديم تحديثات صوتية وملخصات للأخبار، كما يتوفر لاختباره في مختبرات Copilot، حيث يمكن للمستخدمين إنشاء قصص صوتية أو روايات إرشادية من خلال مدخلات نصية. ويُركز النموذج تقنيًا على الجودة والتنوع والسرعة، حيث يُعتبر تشغيله على وحدة معالجة رسومية واحدة (GPU) مُيزة مميزة تسهل دمجه في الأجهزة الاستهلاكية وتطبيقات السحابة، بخلاف الأنظمة التي تتطلب وحدات معالجة رسومية متعددة.
نموذج MAI-1-Preview: بنية النموذج الأساسي والأداء
يُمثل MAI-1-Preview أول نموذج لغة أساسي متكامل داخليًا من مايكروسوفت. على عكس النماذج السابقة التي دمجتها مايكروسوفت أو حصلت عليها برخصة من جهات خارجية، فقد تم تدريب MAI-1-Preview بالكامل على البنية التحتية الخاصة لمايكروسوفت، باستخدام بنية “مزيج الخبراء” (Mixture-of-Experts) وحوالي 15,000 وحدة معالجة رسومية من طراز NVIDIA H100. وقد قام فريق الذكاء الاصطناعي في مايكروسوفت بنشر MAI-1-Preview على منصة LMArena، إلى جانب العديد من النماذج الأخرى.
- الخصائص الرئيسية:
- نموذج لغة أساسي متكامل داخليًا.
- مُحسّن لمتابعة التعليمات والمهام الحوارية اليومية.
- مناسب للتطبيقات الموجهة للمستهلكين.
تم تصميم MAI-1-Preview ليكون مُحسّنًا لمتابعة التعليمات والمهام الحوارية اليومية، مما يجعله مناسبًا للتطبيقات الموجهة للمستهلكين أكثر من تطبيقات المؤسسات أو الاستخدامات المتخصصة للغاية. وقد بدأت مايكروسوفت في طرح النموذج لاختباره في سيناريوهات نصية محددة ضمن Copilot، مع التخطيط لتوسيع نطاق الوصول تدريجيًا مع جمع الملاحظات وتحسين النظام.
بنية تطوير النموذج والتدريب
تم تطوير نموذجي MAI-Voice-1 و MAI-1-Preview بدعم من مجموعة معالجات الرسوميات GB200 من الجيل التالي من مايكروسوفت، وهي بنية تحتية مُصممة خصيصًا لتحسين تدريب نماذج التوليد الكبيرة. بالإضافة إلى الأجهزة، استثمرت مايكروسوفت بكثافة في المواهب، حيث جمعت فريقًا يتمتع بخبرة عميقة في مجال الذكاء الاصطناعي التوليدي، وتوليد الكلام، وهندسة النظم واسعة النطاق. ويُركز نهج الشركة في تطوير النماذج على تحقيق التوازن بين البحث الأساسي والتنفيذ العملي، بهدف إنشاء أنظمة ليست مُذهلة نظريًا فحسب، بل موثوقة ومفيدة في السيناريوهات اليومية.
التطبيقات
يمكن استخدام MAI-Voice-1 في:
- المساعدة الصوتية في الوقت الحقيقي.
- إنشاء محتوى صوتي في مجال الإعلام والتعليم.
- ميزات إمكانية الوصول.
- محاكاة أصوات متعددة في سيناريوهات تفاعلية مثل رواية القصص، وتعلّم اللغات، أو المحادثات المُحاكاة.
أما MAI-1-Preview فيُركز على فهم اللغة وتوليدها بشكل عام، ويساعد في مهام مثل:
- صياغة رسائل البريد الإلكتروني.
- الإجابة على الأسئلة.
- تلخيص النصوص.
- المساعدة في فهم المهام المدرسية وتقديم المساعدة بطريقة حوارية.
الخاتمة
يُظهر إطلاق مايكروسوفت لنموذجي MAI-Voice-1 و MAI-1-Preview قدرة الشركة على تطوير نماذج الذكاء الاصطناعي التوليدي الأساسية داخليًا، بدعم من استثمارات كبيرة في البنية التحتية للتدريب والمواهب التقنية. يهدف كلا النموذجين إلى الاستخدام العملي في العالم الحقيقي، ويتم تحسينهما باستمرار بناءً على ملاحظات المستخدمين. يُضيف هذا التطور إلى تنوع بنيات النماذج وطرق التدريب في هذا المجال، مع التركيز على الأنظمة الفعالة والموثوقة والمناسبة للدمج في التطبيقات اليومية. يُقدم نهج مايكروسوفت – باستخدام موارد واسعة النطاق، والطرح التدريجي، والتفاعل المباشر مع المستخدمين – مثالًا على كيفية تقدم المؤسسات في إمكانيات الذكاء الاصطناعي مع التركيز على التحسين العملي التدريجي.







اترك تعليقاً