لقد مر ما يقرب من عامين منذ أن توقع ساتيا نادالا، الرئيس التنفيذي لشركة مايكروسوفت، أن الذكاء الاصطناعي سيحل محل “العمل المعرفي” (Knowledge Work) — تلك الوظائف المكتبية المرموقة التي يشغلها المحامون والمصرفيون الاستثماريون وأمناء المكتبات والمحاسبون وخبراء تكنولوجيا المعلومات وغيرهم.

ولكن على الرغم من التقدم الهائل الذي أحرزته النماذج التأسيسية، فإن التغيير المنشود في طبيعة العمل المعرفي لا يزال بطيئاً في الوصول. لقد أتقنت النماذج مهارات البحث المتعمق والتخطيط كوكلاء ذكاء اصطناعي (Agentic Planning)، ولكن لسبب ما، لا يزال معظم العمل المكتبي بعيداً عن التأثر المباشر بهذه التقنيات.

يعد هذا أحد أكبر الألغاز في عالم الذكاء الاصطناعي حالياً — وبفضل بحث جديد من شركة “ميركور” (Mercor)، العملاقة في مجال بيانات التدريب، بدأنا أخيراً في الحصول على بعض الإجابات.

معيار Apex-Agents: اختبار الواقع للذكاء الاصطناعي

يركز البحث الجديد على مدى صمود نماذج الذكاء الاصطناعي الرائدة عند تنفيذ مهام عمل حقيقية مستمدة من مجالات الاستشارات، والخدمات المصرفية الاستثمارية، والقانون. والنتيجة هي معيار قياسي جديد يسمى “Apex-Agents” — وحتى الآن، حصلت جميع مختبرات الذكاء الاصطناعي على درجة “رسوب”. فعند مواجهتها بأسئلة من محترفين حقيقيين، واجهت حتى أفضل النماذج صعوبة في الإجابة على أكثر من ربع الأسئلة بشكل صحيح، بينما كانت النتيجة في معظم الأوقات إما إجابة خاطئة أو لا إجابة على الإطلاق.

وفقاً للباحث بريندان فودي، الذي شارك في إعداد الورقة البحثية، فإن أكبر نقطة تعثر للنماذج كانت تتبع المعلومات عبر مجالات متعددة — وهو أمر يعد جزءاً لا يتجزأ من معظم الأعمال المعرفية التي يقوم بها البشر.

تم استخلاص السيناريوهات بالكامل من خبراء حقيقيين في سوق العمل الخاص بشركة “ميركور”، والذين صاغوا الاستفسارات وحددوا المعايير المطلوبة للاستجابة الناجحة. وبالنظر إلى الأسئلة المنشورة علناً على منصة “Hugging Face”، يمكن للمرء أن يلمس مدى تعقيد هذه المهام.

على سبيل المثال، يطرح أحد الأسئلة في قسم “القانون” حالة تتعلق بتصدير سجلات أحداث تقنية تحتوي على بيانات شخصية من الاتحاد الأوروبي إلى مورد تحليلات في الولايات المتحدة أثناء انقطاع الخدمة، ويسأل عما إذا كان يمكن اعتبار هذا الإجراء متوافقاً مع “المادة 49” من سياسات الخصوصية. الإجابة الصحيحة هي “نعم”، ولكن الوصول إليها يتطلب تقييماً دقيقاً لسياسات الشركة الخاصة بالإضافة إلى قوانين الخصوصية ذات الصلة في الاتحاد الأوروبي.

الفرق بين المعرفة العامة والقدرة على التنفيذ المهني

حاولت شركة OpenAI أيضاً قياس المهارات المهنية من خلال معيارها “GDPVal”، لكن اختبار “Apex Agents” يختلف في جوانب جوهرية. فبينما يختبر “GDPVal” المعرفة العامة عبر مجموعة واسعة من المهن، يقيس “Apex Agents” قدرة النظام على أداء مهام مستمرة ومعقدة في مجموعة ضيقة من المهن عالية القيمة. هذه المنهجية تجعل الاختبار أكثر صعوبة للنماذج، ولكنها تجعله أيضاً أكثر ارتباطاً بمدى إمكانية أتمتة هذه الوظائف فعلياً.

وعلى الرغم من عدم ثبوت جاهزية أي نموذج لتولي مهام المصرفيين الاستثماريين، إلا أن بعضها كان أقرب إلى الهدف من غيره:

  • أدى نموذج Gemini 3 Flash الأداء الأفضل في المجموعة بدقة بلغت 24%.
  • تبعه نموذج GPT-5.2 (بناءً على التسميات المستخدمة في البحث) بنسبة 23%.
  • سجلت نماذج Opus 4.5 و Gemini 3 Pro و GPT-5 نسباً متقاربة حول 18%.

ورغم أن النتائج الأولية جاءت دون التوقعات، إلا أن مجال الذكاء الاصطناعي معروف بتاريخه في تحطيم المعايير القياسية الصعبة بسرعة. والآن بعد أن أصبح اختبار “Apex” متاحاً للعلن، فإنه يمثل تحدياً مفتوحاً لمختبرات الذكاء الاصطناعي التي تسعى لإثبات كفاءتها، وهو أمر يتوقع بريندان فودي حدوثه بقوة في الأشهر المقبلة.