نماذج فوكسترال من ميسطرال: ثورة في التعرف على الكلام
تُعلن شركة ميسطرال للذكاء الاصطناعي عن إطلاق عائلتها الجديدة من نماذج التعرف على الكلام المفتوحة المصدر، فوكسترال (Voxtral)، والتي تتضمن نموذجين رئيسيين: فوكسترال-صغير-24 مليار معلمة (Voxtral-Small-24B) وفوكسترال-ميني-3 مليار معلمة (Voxtral-Mini-3B). تتميز هذه النماذج بقدرتها على معالجة كل من المدخلات الصوتية والنصية، وذلك بفضل دمجها المبتكر بين تقنية التعرف الآلي على الكلام (ASR) وفهم اللغة الطبيعية.
مميزات نماذج فوكسترال
- مفتوحة المصدر: تُتاح نماذج فوكسترال بموجب ترخيص Apache 2.0، مما يُتيح استخدامها وتعديلها بحرية.
- متعددة الوظائف: تُقدم فوكسترال حلولاً عملية للعديد من المهام، بما في ذلك:
- النسخ الصوتي.
- تلخيص النصوص.
- الإجابة على الأسئلة.
- تنفيذ الأوامر الصوتية.
- معالجة متكاملة: صُممت نماذج فوكسترال لتلبية الطلب المتزايد على معالجة الصوت المتكاملة في التطبيقات الاستهلاكية وأنظمة المؤسسات.
- واجهة قابلة للتكوين: تتميز هذه النماذج بواجهة قابلة للتكوين وواعية للغة، مما يُسهل دمجها في مختلف التطبيقات.
البنية المعمارية وإدارة السياق
تعتمد نماذج فوكسترال على بنية ميسطرال-صغير 3.1 الأساسية، مع إضافة واجهة أمامية صوتية لتمكين معالجة البيانات الصوتية والنصية. يدعم كلا النموذجين نافذة سياقية تبلغ 32000 رمز، مما يُمكّن من:
- النسخ الصوتي: للمقاطع الصوتية التي تصل مدتها إلى حوالي 30 دقيقة.
- الاستنتاج والتلخيص: للمقاطع الصوتية التي تصل مدتها إلى 40 دقيقة.
تساعد هذه الدعم السياقي الممتد على تجنب الحاجة لتجزئة أو اقتطاع المدخلات الصوتية في معظم حالات الاستخدام النموذجية، خاصة في تحليل الاجتماعات أو تدوين الوثائق المتعددة الوسائط.
القدرات الوظيفية الرئيسية
أداء النسخ الصوتي
توفر فوكسترال قدرات نسخ صوتي موثوقة في بيئات صوتية متنوعة. وتُقدم ميسطرال نقاط نهاية API مُحسّنة لمهام النسخ الصوتي منخفضة زمن الوصول، وهو أمر مفيد في السياقات التي تتطلب الاستجابة في الوقت الفعلي وفي تدفقات البيانات.
معالجة اللغات المتعددة
تتضمن فوكسترال خاصية الكشف التلقائي عن اللغة، وتعمل بكفاءة عالية مع مجموعة من اللغات الرئيسية، بما في ذلك الإنجليزية، الإسبانية، الفرنسية، البرتغالية، الهندية، الألمانية، الهولندية، والإيطالية. يمكن لنموذج واحد معالجة سيناريوهات اللغات المختلطة دون الحاجة لإعادة التدريب.
فهم الصوت الذي يتجاوز النسخ الصوتي
يمكن للنماذج الإجابة على استفسارات حول محتوى الصوت (مثل “ما هو القرار الذي اتُخذ؟”) وتوليد ملخصات موجزة. يمكن تنفيذ هذه المهام دون ربط نموذج ASR بنموذج لغة كبير منفصل، مما يقلل من زمن الوصول وتعقيد النظام.
تنفيذ الوظائف الصوتية
تتيح فوكسترال تحليل نوايا المستخدم مباشرة من الصوت وتفعيل الإجراءات أو سير العمل الخلفية وفقًا لذلك. هذه القدرة ذات صلة بالمساعدين الصوتيين، والأنظمة الصناعية، وأتمتة خدمة العملاء.
دعم وضع النص
بالإضافة إلى الصوت، تحتفظ فوكسترال بأداء قوي في المهام النصية فقط، نظرًا لأساسها المشترك مع نماذج لغة ميسطرال. يُمكّن هذا الوضع المزدوج تجارب مستخدم أكثر سلاسة في التطبيقات متعددة الواجهات.
مقارنة بين نماذج فوكسترال
| النموذج | المعلمات | نوع المدخلات | طول السياق | سياق النشر |
|---|---|---|---|---|
| فوكسترال-ميني-3 مليار معلمة | 3 مليار | صوت + نص | 32000 رمز | بيئات الهاتف المحمول أو الحواف |
| فوكسترال-صغير-24 مليار معلمة | 24 مليار | صوت + نص | 32000 رمز | أنظمة السحابة، أنظمة قائمة على API |
تم ضبط نموذج 3 مليار معلمة للنشر الخفيف والاستدلال المحلي، بينما يُناسب نموذج 24 مليار معلمة الاستخدام على مستوى الإنتاج مع موارد حوسبة أعلى.
خيارات النشر وواجهات برمجة التطبيقات (API)
توفر ميسطرال نقاط نهاية مُحسّنة للنسخ الصوتي فقط للمطورين العاملين على تطبيقات حساسة لزمن الوصول. يُتيح ذلك التكامل المباشر مع الأنظمة الموجودة مثل:
- أدوات النسخ الصوتي للاجتماعات والمكالمات.
- أنظمة الترجمة الفورية.
- منصات تدوين الملاحظات الصوتية.
- لوحات التحكم التي تعمل بالصوت.
بفضل طابعها المفتوح المصدر وترخيصها التراخي، يمكن نشر نماذج فوكسترال في بيئات داخلية آمنة أو في بنية سحابية، مما يوفر مرونة للتنفيذ على مستوى المؤسسات.
الاستخدام العملي في الأنظمة التي تعتمد على الصوت
مع استمرار انتشار الواجهات الصوتية عبر تطبيقات الهاتف المحمول، والأجهزة القابلة للارتداء، وواجهات السيارات، وأنظمة الدعم، يمكن لأدوات مثل فوكسترال تمكين معالجة صوت أكثر دقة ووعيًا بالسياق. بدلاً من الحاجة إلى أنظمة متعددة المراحل، يمكن للمطورين الآن تنفيذ خطوط أنابيب لفهم الصوت مع عدد أقل من الأجزاء المتحركة.
الخاتمة: نهج وحدوي لدمج الصوت واللغة
تُقدم فوكسترال نهجًا جديدًا لنمذجة الصوت واللغة، حيث تجمع بين دقة النسخ الصوتي والتفكير على مستوى اللغة وتحليل الأوامر. يُعد تغطيتها متعددة اللغات، ودعم السياق الطويل، وترخيصها المرن، مناسبة لمجموعة متنوعة من التطبيقات – من أدوات التلخيص إلى وكلاء التفاعل الصوتي.
[رابط تفاصيل تقنية عن النموذجين]





اترك تعليقاً