MathCoder-VL و FigCodifier: ثورة جديدة في الاستدلال الرياضي متعدد الوسائط
يُعَدّ الاستدلال الرياضي متعدد الوسائط مجالاً حيوياً في الذكاء الاصطناعي، حيث يُمكّن الآلات من حلّ المسائل التي تتضمن معلومات نصية وعناصر بصرية مثل الرسوم البيانية والأشكال. ويتطلب ذلك دمج فهم اللغة مع تفسير الصور لفهم السياقات الرياضية المعقدة. تُعدّ هذه القدرات ضرورية في مجالات التعليم، والتدريس الآلي، وتحليل الوثائق، حيث غالباً ما تُقدّم المسائل مزيجاً من النصوص والصور.
التحديات السابقة في الاستدلال الرياضي متعدد الوسائط
واجهت هذه التقنية عقبة رئيسية تتمثل في نقص المحاذاة الدقيقة وعالية الجودة بين الصور الرياضية وتمثيلاتها النصية أو الرمزية. فمعظم مجموعات البيانات المستخدمة لتدريب النماذج متعددة الوسائط الكبيرة مُستمدة من عناوين الصور في بيئات طبيعية، والتي غالباً ما تُغفل العناصر التفصيلية الضرورية للدقة الرياضية. يُسبّب هذا مشاكل للنماذج التي تعتمد على هذه المصادر، مما يجعلها غير موثوقة عند التعامل مع الهندسة، أو الأشكال، أو الرسوم البيانية التقنية. يعتمد أداء النموذج في الاستدلال الرياضي بشكل كبير على قدرته على تفسير هذه التفاصيل البصرية وربطها بشكل صحيح بالتعبيرات أو التعليمات الرياضية.
حاولت بعض الأساليب السابقة معالجة هذا الأمر إما من خلال تحسين مُشفّرات الصور أو استخدام مجموعات بيانات مُصمّمة يدوياً. ومع ذلك، فإن هذه الأساليب تميل إلى إنتاج تنوع منخفض في الصور، معتمدة على إنشاء يدوي أو قائم على القوالب، مما يحدّ من قابليتها للتطبيق. كما بذلت جهودٌ، مثل Math-LLaVA و MAVIS، في تطوير مجموعات بيانات اصطناعية واستخدام قوالب أو فئات مُحددة مسبقاً، لكنها لم تتمكن من إنشاء مجموعة واسعة ومتنوعة من الصور الرياضية ديناميكياً. يُقيد هذا النقص نطاق تعلم النماذج ويجعلها تكافح مع المشاكل الرياضية الأكثر تعقيداً أو الأقل تنظيماً.
MathCoder-VL: نهجٌ جديدٌ مبتكر
قدّم باحثون من مختبر الوسائط المتعددة في الجامعة الصينية في هونغ كونغ وCPII التابعة لـ InnoHK نهجاً جديداً يُسمّى MathCoder-VL. يُجمع هذا الأسلوب بين نموذج رؤية إلى رمز يُدعى FigCodifier وآلة إنشاء بيانات اصطناعية. قاموا ببناء مجموعة بيانات ImgCode-8.6M باستخدام استراتيجية “النموذج في الحلقة”، مما سمح لهم ببناء أكبر مجموعة بيانات صورة-رمز حتى الآن بشكل تكراري. علاوة على ذلك، قاموا بتطوير MM-MathInstruct-3M، وهي مجموعة بيانات تعليمات متعددة الوسائط مُثرّاة بصور مُولّدة حديثاً.
يُدرّب نموذج MathCoder-VL على مرحلتين: تدريب متوسط على ImgCode-8.6M لتحسين محاذاة النص والصورة، وضبط دقيق على MM-MathInstruct-3M لتعزيز قدرات الاستدلال. يعمل نموذج FigCodifier عن طريق ترجمة الأشكال الرياضية إلى رمز يمكنه إعادة إنشاء هذه الأشكال بدقة. يضمن هذا الاقتران بين الرمز والصورة محاذاة ودقة عالية، على عكس مجموعات البيانات القائمة على العناوين. تبدأ العملية بـ 119 ألف زوج صورة-رمز من DaTikZ، وتتوسّع من خلال التدريب التكراري باستخدام صور مُجمعة من الكتب المدرسية، ومجموعات بيانات K12، وورقات arXiv. تتضمن مجموعة البيانات النهائية 8.6 مليون زوج صورة-رمز، وتغطي مواضيع رياضية متنوعة. يُدعم FigCodifier أيضاً العرض القائم على Python، مما يُضيف تنوعاً لإنشاء الصور. يُصفّي النظام البيانات منخفضة الجودة عن طريق التحقق من صحة الرمز وإزالة الصور الزائدة أو غير المفيدة، مما يُنتج 4.3 مليون زوج عالي الجودة من TikZ و 4.3 مليون زوج قائم على Python.
النتائج والأداء
تُظهر تقييمات الأداء أنّ MathCoder-VL يتفوّق على العديد من النماذج مفتوحة المصدر. حقّق إصدار 8B دقة 73.6% في مجموعة مشاكل حل الهندسة في MathVista، متجاوزاً GPT-4o و Claude 3.5 Sonnet بنسبة 8.9% و 9.2% على التوالي. كما سجّل 26.1% في MATH-Vision و 46.5% في MathVerse. وفي معايير اللغة الصينية، حقق 51.2% في GAOKAO-MM. في معيار We-Math، حلّ مشاكل خطوتين بنسبة 58.6%، متجاوزاً GPT-4o الذي حقق 58.1%. بلغ أدائه في مشاكل ثلاث خطوات 52.1%، متجاوزاً أيضاً GPT-4o الذي حقق 43.6%. مقارنةً بنموذجه الأساسي InternVL2-8B، أظهر مكاسب بنسبة 6.1% في MATH-Vision و 11.6% في MathVista.
الخلاصة
يُحدد هذا العمل بوضوح مشكلة عدم كفاية محاذاة النص والصورة في الاستدلال الرياضي متعدد الوسائط، ويُقدّم حلاً قابلاً للتطوير ومبتكراً. يُتيح إدخال FigCodifier ومجموعات البيانات الاصطناعية للنماذج التعلّم من صور دقيقة ومتنوعة مُقترنة برمز دقيق، مما يُعزز قدراتها الاستدلالية بشكل كبير. يمثّل MathCoder-VL تقدماً عملياً في هذا المجال، مُبيّناً كيف يُمكن للتصميم المدروس للنماذج والبيانات عالية الجودة التغلّب على القيود طويلة الأمد في مجال الذكاء الاصطناعي الرياضي. يمكنكم الاطلاع على الورقة البحثية وصفحة GitHub.
اترك تعليقاً