إطلاق OpenAI خاصية ضبط التعزيز (RFT) على نموذج o4-mini: نقلة نوعية في تخصيص النماذج
أعلنت شركة OpenAI عن إطلاق خاصية ضبط التعزيز (Reinforcement Fine-Tuning – RFT) على نموذجها للتفكير o4-mini، مقدّمةً بذلك تقنيةً قويةً جديدةً لتكييف النماذج الأساسية مع المهام المتخصصة. تعتمد RFT على مبادئ التعلم المعزز، مما يسمح للمؤسسات بتعريف أهداف مخصصة ووظائف مكافأة، مما يُمكّن من التحكم الدقيق في كيفية تحسين النماذج – بما يتجاوز بكثير ما تقدمه تقنيات ضبط التعلم الخاضع للإشراف التقليدية.
ماهية ضبط التعزيز (RFT)؟
تطبق تقنية ضبط التعزيز مبادئ التعلم المعزز على ضبط نماذج اللغة. وبدلاً من الاعتماد فقط على الأمثلة المسمّاة، يوفر المطورون مُصحّحًا خاصًا بالمهمة – وهي وظيفة تقيم درجات مخرجات النموذج بناءً على معايير مخصصة. ثم يتم تدريب النموذج لتحسينه بناءً على إشارة المكافأة هذه، ويتعلم تدريجيًا إنشاء استجابات تتوافق مع السلوك المطلوب. يُعد هذا النهج ذا قيمة خاصة للمهام الدقيقة أو الذاتية حيث يصعب تعريف الحقيقة الموضوعية. على سبيل المثال، قد لا تتوفر لديك بيانات مُسمّاة لـ “أفضل طريقة لصياغة شرح طبي”، ولكن يمكنك كتابة برنامج يقيم الوضوح، والصحة، والاكتمال – والسماح للنموذج بالتعلم وفقًا لذلك.
لماذا نموذج o4-mini؟
يُعد نموذج o4-mini من OpenAI نموذجًا مدمجًا للتفكير تم إصداره في أبريل 2025، وهو مُحسّن لإدخالات النصوص والصور على حد سواء. وهو جزء من الجيل الجديد من نماذج OpenAI متعددة المهام، وهو قوي بشكل خاص في التفكير المنظم ومطالبات سلسلة الأفكار. من خلال تمكين RFT على o4-mini، تُمكّن OpenAI المطورين من الوصول إلى أساس خفيف الوزن ولكنه قادر على الضبط الدقيق لمهام التفكير عالية المخاطر والخاصة بالمجال – مع الحفاظ على كفاءة الحوسبة وسرعة كافية للتطبيقات في الوقت الفعلي.
حالات الاستخدام التطبيقية: ما الذي يبني المطورون باستخدام RFT؟
أظهر العديد من المُستخدمين الأوائل الإمكانات العملية لـ RFT على o4-mini:
- Accordance AI: بنت نموذجًا مخصصًا لتحليل الضرائب حسّن دقته بنسبة 39٪ مقارنة بالأساس، باستخدام مُصحّح قائم على القواعد لفرض منطق الامتثال.
- Ambience Healthcare: استخدمت RFT لتعزيز دقة الترميز الطبي، مما زاد من أداء تعيين ICD-10 بمقدار 12 نقطة فوق التسميات المكتوبة من قبل الأطباء.
- Harvey: قامت شركة Harvey، وهي شركة ناشئة تعمل في مجال الذكاء الاصطناعي القانوني، بضبط نموذج لاستخراج الاستشهادات من الوثائق القانونية مع تحسن بنسبة 20٪ في F1، مطابقًا لأداء GPT-4o مع انخفاض زمن الاستجابة.
- Runloop: دربت النموذج لإنشاء أجزاء صالحة من واجهة برمجة تطبيقات Stripe، محققة مكسبًا بنسبة 12٪ باستخدام التحقق من صحة AST والتصنيف القائم على بناء الجملة.
- Milo: حسّن جودة المخرجات على مطالبات التقويم المعقدة بمقدار 25 نقطة.
- SafetyKit: عزز دقة إدارة المحتوى في الإنتاج من 86٪ إلى 90٪ F1 من خلال فرض الامتثال للسياسات الدقيقة من خلال وظائف التصنيف المخصصة.
تُبرز هذه الأمثلة قوة RFT في مواءمة النماذج مع متطلبات كل حالة استخدام – سواءً كانت تتضمن التفكير القانوني، أو الفهم الطبي، أو توليد التعليمات البرمجية، أو إنفاذ السياسات.
كيفية استخدام RFT على o4-mini
تتضمن بدء استخدام ضبط التعزيز أربعة مكونات رئيسية:
- تصميم وظيفة التصنيف: يحدد المطورون دالة بايثون تقيم مخرجات النموذج. تُعيد هذه الوظيفة درجة من 0 إلى 1 ويمكنها ترميز التفضيلات الخاصة بالمهمة، مثل الصحة، أو التنسيق، أو النبرة.
- إعداد مجموعة البيانات: مجموعة بيانات عالية الجودة ضرورية. توصي OpenAI باستخدام أمثلة متنوعة وتحدّيات تعكس المهمة المستهدفة.
- بدء مهمة التدريب: عبر واجهة برمجة تطبيقات ضبط OpenAI أو لوحة التحكم، يمكن للمستخدمين بدء تشغيل RFT مع تكوينات قابلة للتعديل وتتبع الأداء.
- التقييم والتكرار: يراقب المطورون تقدم المكافآت، ويقيّمون نقاط التفتيش، ويُحسّنون منطق التصنيف لزيادة الأداء بمرور الوقت.
تتوفر وثائق وأمثلة شاملة من خلال دليل RFT من OpenAI.
الوصول والأسعار
تتوفر RFT حاليًا للمنظمات المُتحققة. تُفرض رسوم التدريب بسعر 100 دولار أمريكي في الساعة لوقت التدريب النشط. إذا تم استخدام نموذج OpenAI المُستضاف لتشغيل المُصحّح (مثل GPT-4o)، فسيتم احتساب استخدام الرموز لتلك المكالمات بشكل منفصل بأسعار الاستدلال القياسية. كحافز، تقدم OpenAI خصمًا بنسبة 50٪ على تكلفة التدريب للمنظمات التي توافق على مشاركة مجموعات بياناتها لأغراض البحث وتحسين النموذج.
قفزة تقنية لتخصيص النماذج
يمثل ضبط التعزيز تحولًا في كيفية تكييفنا للنماذج الأساسية مع الاحتياجات المحددة. بدلاً من مجرد تكرار المخرجات المسمّاة، تُمكّن RFT النماذج من استيعاب حلقات التغذية الراجعة التي تعكس أهداف وقيود التطبيقات في العالم الحقيقي. بالنسبة للمنظمات التي تعمل على سير عمل معقدة حيث تهم الدقة والمواءمة، تفتح هذه الإمكانية الجديدة مسارًا مهمًا لنشر الذكاء الاصطناعي الموثوق به وفعال. مع توفر RFT الآن على نموذج التفكير o4-mini، تُزوّد OpenAI المطورين بأدوات ليس فقط لضبط اللغة، ولكن لضبط التفكير نفسه.
اترك تعليقاً