مقاييس فيزيائية جديدة تكشف عن قصور نماذج الذكاء الاصطناعي متعددة الوسائط
تُظهر نماذج الذكاء الاصطناعي المتقدمة دقة تنافس دقة الإنسان في حل مسائل رياضية معقدة، كما هو الحال في اختبارات AIME، وGPQA، وMATH-500، وOlympiadBench، حيث تُحلّ مسائل على مستوى الأولمبياد. وقد شهدت النماذج الأساسية متعددة الوسائط تقدماً ملحوظاً في معايير قياس المعرفة التخصصية والتفكير الرياضي. ومع ذلك، فإن هذه التقييمات تغفل جانباً حاسماً من ذكاء الآلة: وهو الاستدلال الفيزيائي.
تحديات الاستدلال الفيزيائي في نماذج الذكاء الاصطناعي
يختلف حل المشكلات الفيزيائية اختلافاً جوهرياً عن التفكير الرياضي البحت، إذ يتطلب من النماذج فك شفرة الشروط الضمنية في الأسئلة. على سبيل المثال، تفسير “سطح أملس” على أنه معامل احتكاك صفري، والحفاظ على الاتساق الفيزيائي عبر سلاسل الاستدلال، لأن قوانين الفيزياء تبقى ثابتة بغض النظر عن مسارات الاستدلال. تُظهر نماذج اللغات الكبيرة متعددة الوسائط (MLLM) فهماً بصرياً ممتازاً من خلال دمج البيانات البصرية والنصية عبر مهام متنوعة، مما يحفز على استكشاف قدراتها في مجال الاستدلال. ومع ذلك، لا يزال هناك غموض حول ما إذا كانت هذه النماذج تمتلك قدرات استدلالية متقدمة حقيقية للمهام البصرية، خاصة في المجالات الفيزيائية الأقرب إلى السيناريوهات الواقعية.
معيار PHYX: تقييم دقيق لقدرات الاستدلال الفيزيائي
ظهرت العديد من معايير قياس نماذج اللغات الكبيرة لتقييم قدراتها الاستدلالية، ويُعدّ معيار PHYBench الأكثر صلة بالاستدلال الفيزيائي. وتحتوي معايير قياس MLLM العلمية، مثل PhysReason وEMMA، على مسائل فيزيائية متعددة الوسائط مع رسوم بيانية، لكنها تتضمن فقط مجموعات فرعية صغيرة من الفيزياء، مما لا يُقيّم بشكل كافٍ قدرات نماذج اللغات الكبيرة متعددة الوسائط على الاستدلال وحل مسائل فيزيائية متقدمة.
لهذا السبب، قام باحثون من جامعات هونج كونج، وميشيغان، وتورنتو، وواترلو، وأوهايو الحكومية، باقتراح معيار PHYX الجديد لتقييم قدرات الاستدلال الفيزيائي لنماذج الذكاء الاصطناعي الأساسية. ويتألف هذا المعيار من 3000 سؤال فيزيائي قائم على الصور، تم اختياره بدقة عبر ستة مجالات فيزيائية متميزة:
- الميكانيكا
- الكهرومغناطيسية
- الديناميكا الحرارية
- الموجات/ الصوتيات
- البصريات
- الفيزياء الحديثة
ويُقيّم PHYX الاستدلال القائم على الفيزياء من خلال حل المشكلات المتعددة الوسائط، مع ثلاث ابتكارات أساسية:
- 3000 سؤال جديد تم جمعه مع سيناريوهات فيزيائية واقعية تتطلب تحليلاً بصرياً متكاملاً واستدلالاً سببيًا.
- تصميم بيانات معتمد من قبل خبراء يغطي ستة مجالات أساسية في الفيزياء.
- بروتوكولات تقييم موحدة من ثلاث خطوات صارمة.
اتبع الباحثون عملية جمع بيانات من أربع مراحل لضمان جودة البيانات العالية. تبدأ العملية باستطلاع شامل للتخصصات الفيزيائية الأساسية لتحديد التغطية عبر المجالات والفرعية المتنوعة، يليها توظيف طلاب دراسات عليا في العلوم والتكنولوجيا والهندسة والرياضيات كمسؤولين عن وضع علامات الخبراء. وقد التزموا بقيود حقوق الطبع والنشر وتجنبوا تلوث البيانات من خلال اختيار أسئلة لا تتوفر إجاباتها مباشرة. علاوة على ذلك، تتضمن مراقبة الجودة عملية تنظيف من ثلاث مراحل تشمل الكشف عن الازدواجية من خلال تحليل التداخل اللغوي مع مراجعة يدوية من قبل طلاب الدكتوراه في الفيزياء، تليها تصفية أقصر 10% من الأسئلة بناءً على الطول النصي، مما أسفر عن 3000 سؤال عالي الجودة من مجموعة أولية من 3300 سؤال.
نتائج PHYX: فجوة بين القدرات البشرية والنماذج الحالية
يُمثل PHYX تحديات كبيرة للنماذج الحالية، حيث حقق حتى أسوأ خبراء البشر دقة بلغت 75.6%، متفوقاً على جميع النماذج التي تم تقييمها، مما يُظهر فجوة بين الخبرة البشرية وقدرات النماذج الحالية. يكشف المعيار أن التنسيقات متعددة الخيارات تضيق الفجوات في الأداء من خلال السماح للنماذج الأضعف بالاعتماد على الإشارات السطحية، لكن الأسئلة المفتوحة تتطلب استدلالاً حقيقياً وتوليد إجابات دقيقة. وبمقارنة أداء GPT-4o على PHYX مع النتائج المُبلغ عنها سابقاً على MathVista وMATH-V (كلاهما 63.8%)، فإن الدقة الأقل في مهام الاستدلال الفيزيائي تُبرز أن الاستدلال الفيزيائي يتطلب تكاملاً أعمق للمفاهيم المجردة والمعرفة الواقعية، مما يُمثل تحديات أكبر من السياقات الرياضية البحتة.
الخلاصة: حدود نماذج الذكاء الاصطناعي في فهم الفيزياء
في الختام، قدم الباحثون PHYX، وهو أول معيار واسع النطاق لتقييم الاستدلال الفيزيائي في سيناريوهات متعددة الوسائط قائمة على الصور. يكشف التقييم الدقيق أن نماذج الذكاء الاصطناعي المتقدمة تُظهر قيوداً في الاستدلال الفيزيائي، حيث تعتمد بشكل أساسي على المعرفة المُحفظة، والصيغ الرياضية، والأنماط البصرية السطحية بدلاً من الفهم الحقيقي للمبادئ الفيزيائية. يُركز المعيار حصراً على المطالبات والتعليقات باللغة الإنجليزية، مما يُحدّ من تقييم قدرات الاستدلال متعددة اللغات. كما أن الصور، رغم أنها تصور سيناريوهات فيزيائية واقعية، إلا أنها غالباً ما تكون تخطيطية أو على طراز الكتب المدرسية بدلاً من صور واقعية من العالم الحقيقي، مما قد لا يُجسّد تماماً تعقيد الإدراك في البيئات الطبيعية. يمكنكم الاطلاع على الورقة البحثية، والشيفرة المصدرية، وصفحة المشروع.
اترك تعليقاً