مقارنة أداء نماذج اللغات الكبيرة باستخدام تقنية “الساحة كحكم”
تُعدّ نماذج اللغات الكبيرة (LLMs) من أهمّ التطوّرات في مجال الذكاء الاصطناعي، إلا أنّ تقييم أدائها يُشكّل تحديًا. تُقدّم هذه المقالة شرحًا عمليًا لطريقة مبتكرة لتقييم هذه النماذج، وهي طريقة “الساحة كحكم” (LLM Arena-as-a-Judge). بدلاً من الاعتماد على درجات رقمية مُنفصلة، تُقارن هذه الطريقة مُخرجات نماذج اللغات الكبيرة بشكل مُباشر لتحديد الأفضل وفقًا لمعايير محددة مسبقًا، مثل الوضوح، الفائدة، واللهجة.
الخطوات العملية: مثال عملي على دعم العملاء
سنستخدم في هذا المثال نموذجي GPT-4.1 من OpenAI و Gemini 2.5 Pro من Google، مع الاعتماد على GPT-5 كحكم لتقييم مُخرجات النموذجين الآخرين. سنُطبّق هذه الطريقة على سيناريو بسيط لدعم العملاء، حيث تلقّى العميل لوحة مفاتيح بدلاً من فأرة لاسلكية طلبها.
1. البيئة المُستخدمة والمتطلبات:
- البرامج: سنحتاج إلى تثبيت Deepeval، بالإضافة إلى مكتبات OpenAI و Google GenAI. يمكن تثبيتها باستخدام الأمر التالي:
pip install deepeval google-genai openai - مفاتيح API: سنحتاج إلى مفاتيح API لكل من OpenAI و Google. يمكن الحصول عليها من الروابط التالية:
- مفتاح Google API: https://aistudio.google.com/apikey
- مفتاح OpenAI API: https://platform.openai.com/settings/organization/api-keys (قد تحتاج إلى إضافة معلومات الفوترة ودفع مبلغ أدنى لتنشيط الوصول إلى API).
2. تعريف سياق الرسالة:
سنُعرّف سياق رسالة البريد الإلكتروني من العميل كالتالي:
context_email = """
عزيزي قسم الدعم،
لقد طلبت فأرة لاسلكية الأسبوع الماضي، لكنني تلقيت لوحة مفاتيح بدلاً منها. هل يُمكنكم حلّ هذه المشكلة في أقرب وقت ممكن؟
شكرًا لكم،
جون
"""
prompt = f"""
{context_email}
--------
سؤال: اكتب ردًا على بريد العميل أعلاه.
"""
3. استجابة كل من نموذجي GPT-4 و Gemini:
سنستخدم وظائف مخصصة للحصول على استجابة كل من GPT-4 و Gemini بناءً على prompt المُعرّف أعلاه.
4. إنشاء حالة اختبار “الساحة”:
نُنشئ حالة اختبار ArenaTestCase لمقارنة استجابات GPT-4 و Gemini:
a_test_case = ArenaTestCase(
contestants={
"GPT-4": LLMTestCase(
input="اكتب ردًا على بريد العميل أعلاه.",
context=[context_email],
actual_output=openAI_response,
),
"Gemini": LLMTestCase(
input="اكتب ردًا على بريد العميل أعلاه.",
context=[context_email],
actual_output=geminiResponse,
),
}
)
5. تعريف معيار التقييم:
سنُعرّف معيار التقييم ArenaGEval باسم “جودة رسالة دعم العملاء”، مع التركيز على التعاطف، الاحترافية، والوضوح:
metric = ArenaGEval(
name="جودة رسالة دعم العملاء",
criteria=(
"اختر الرد الذي يُوازن بشكل أفضل بين التعاطف، الاحترافية، والوضوح. "
"يجب أن يبدو الرد مُتفهمًا، مُهذبًا، ومُوجزًا."
),
evaluation_params=[
LLMTestCaseParams.CONTEXT,
LLMTestCaseParams.INPUT,
LLMTestCaseParams.ACTUAL_OUTPUT,
],
model="gpt-5",
verbose_mode=True,
)
6. تشغيل التقييم:
نُشغّل عملية التقييم باستخدام:
metric.measure(a_test_case)
النتائج وتحليلها
أظهرت نتائج التقييم تفوّق GPT-4 على Gemini في توليد رسالة دعم عملاء مُتوازنة بين التعاطف، الاحترافية، والوضوح. تميّزت استجابة GPT-4 بإيجازها، لباقتها، وتركيزها على اتخاذ الإجراءات اللازمة لحلّ المشكلة. أما استجابة Gemini، فرغم تعاطفها وتفصيلها، إلا أنها تضمّنت خيارات مُتعددة وتعليقات غير ضرورية، مما قلّل من وضوحها واحترافيتها.
يُبرز هذا المثال قدرة GPT-4 على تقديم رسائل مُركّزة، مُراعية لاحتياجات العميل، وتُشعِرُه بالاحترام والاهتمام في آن واحد.
الخاتمة
تُعدّ طريقة “الساحة كحكم” أداة قيّمة لتقييم نماذج اللغات الكبيرة، حيث تُتيح مقارنة مُباشرة بين مُخرجاتها وتحديد الأفضل وفقًا لمعايير مُحددة. يُمكن تطبيق هذه الطريقة على العديد من سيناريوهات استخدام نماذج اللغات الكبيرة، مما يُساهم في تحسين أدائها وتطويرها باستمرار.






اترك تعليقاً