OpenThoughts: منهجية مُبتكرة لإنشاء بيانات تدريب مُحسّنة لنماذج الاستدلال

يُظهر التقدم المُذهل في نماذج الاستدلال، مثل DeepSeek-R1 و o3، قدرات استثنائية في مجالات الرياضيات والبرمجة والعلوم. ويعتمد هذا التقدم على تقنيات ما بعد التدريب، مثل الضبط الدقيق المُشرف (SFT) وتعلم التعزيز (RL). ومع ذلك، فإن المنهجيات الكاملة وراء هذه النماذج الرائدة غير مُتاحة للجمهور، مما يُعقّد عملية البحث وتطوير نماذج استدلال جديدة.

تحديات تحضير بيانات الاستدلال

على الرغم من أن تحضير بيانات الضبط الدقيق المُشرف (SFT) يُعدّ نهجًا قويًا لتطوير قدرات استدلال قوية، إلا أن معظم الجهود الحالية تستكشف خيارات تصميم محدودة، مثل الاعتماد فقط على الأسئلة المكتوبة يدويًا أو نماذج مُعلّم واحدة. علاوة على ذلك، فإن استكشاف مساحة التصميم الواسعة للتقنيات المختلفة لتوليد أزواج السؤال والإجابة يتطلب تكاليف عالية للاستدلال على المُعلّم وتدريب النموذج.

وقد مكّنت سجلات الاستدلال التي توفرها نماذج مثل Gemini و QwQ و DeepSeek-R1 تقنيات تقطير المعرفة لتدريب نماذج استدلال أصغر حجمًا. وتقوم مشاريع مثل OpenR1 و OpenMathReasoning و OpenCodeReasoning بجمع الأسئلة من المنتديات العامة ومواقع المسابقات، بينما يستخدم Natural Reasoning مجموعات بيانات ما قبل التدريب كبيانات أولية. تركز بعض الجهود، مثل S1 و LIMO، على تحضير مجموعات بيانات صغيرة وعالية الجودة يدويًا من الأسئلة الصعبة. أما أساليب أخرى، مثل DeepMath-103K و Nvidia Nemotron، فتقدم ابتكارات عبر مراحل الحصول على البيانات والتصفية والتحجيم. كما عززت أساليب تعلم التعزيز، بما في ذلك AceReason و Skywork-OR1، قدرات الاستدلال لما يتجاوز أساليب SFT التقليدية.

OpenThoughts: إطار عمل قابل للتوسيع لإنشاء مجموعات بيانات SFT

اقترح باحثون من جامعة ستانفورد وجامعة واشنطن و BespokeLabs.ai ومعهد أبحاث تويوتا وجامعة كاليفورنيا، بيركلي، و 12 منظمة أخرى، مشروع OpenThoughts، وهو وصفة بيانات مفتوحة جديدة تُمثل أحدث ما توصل إليه البحث في مجال الاستدلال. يستخدم OpenThoughts نهجًا تدريجيًا عبر ثلاث مراحل:

  • OpenThoughts-114K: يُوسّع نطاق خط أنابيب Sky-T1 مع التحقق الآلي.
  • OpenThoughts2-1M: يُحسّن حجم البيانات من خلال تنويع الأسئلة المُعزّزة واستراتيجيات التوليد الاصطناعي.
  • OpenThoughts3-1.2M: يُدمج النتائج من أكثر من 1000 تجربة تحليلية لتطوير خط أنابيب تحضير بيانات بسيط وقابل للتوسيع وعالي الأداء.

علاوة على ذلك، حقق نموذج OpenThinker3-7B أداءً متقدمًا بين نماذج البيانات المفتوحة على نطاق 7 مليارات معامل. تم بناء OpenThoughts3-1.2M عن طريق تحليل كل مكون من مكونات خط الأنابيب بشكل مستقل مع الحفاظ على ظروف ثابتة عبر المراحل الأخرى، مما ينتج 31,600 نقطة بيانات لكل استراتيجية وضبط دقيق لـ Qwen2.5-7B-Instruct على كل مجموعة بيانات ناتجة. يهدف التدريب إلى إنشاء أفضل مجموعة بيانات من أزواج السؤال والإجابة للاستدلال SFT.

تقييم OpenThoughts

يُجرى التقييم عبر ثمانية معايير مرجعية للاستدلال في مجالات الرياضيات (AIME24، AMC23، MATH500) والبرمجة (CodeElo، CodeForces، LiveCodeBench) والعلوم (GPQA Diamond، JEEBench). يشتمل التصميم التجريبي على عملية تطهير صارمة لإزالة العينات عالية التشابه، ويحتفظ بمجموعة مرجعية مُحتفظ بها لاختبار التعميم. تُستخدم Evalchemy كأداة تقييم رئيسية، لضمان بروتوكولات تقييم مُتناسقة.

رؤى التقييم وأداء المعايير المرجعية

يكشف تقييم خط أنابيب OpenThoughts عن رؤى رئيسية عبر مصادر الأسئلة، والمزج، والتصفية، وفلترة الإجابات، ونموذج المُعلّم.

  • مصادر الأسئلة: تُظهر التجارب أن أسئلة CodeGolf ومسابقات البرمجة تحقق أعلى أداء في مهام البرمجة (25.3-27.5 درجات مُتوسطة)، بينما تتفوق الأسئلة المُولّدة بواسطة نماذج اللغات الكبيرة والأسئلة المكتوبة يدويًا في الرياضيات (58.8-58.5 درجات)، وأسئلة فيزياء StackExchange مع استخراج نصوص الكيمياء تُحقق أفضل أداء في العلوم (43.2-45.3 درجات).
  • مزج الأسئلة: يُظهر أن دمج مصادر أسئلة مُتعددة يُقلّل الأداء، مع نتائج مثالية لتحسينات في الدقة بنسبة 5% عبر استراتيجيات مزج مُتنوعة.
  • نموذج المُعلّم: يتفوق QwQ-32B على DeepSeek-R1 في تقطير المعرفة، مُحققًا تحسينًا في الدقة بنسبة 1.9-2.6%.

الخلاصة والاتجاهات البحثية المستقبلية

يُقدم الباحثون مشروع OpenThoughts، مُبينين أن التجريب المنهجي يمكن أن يُحسّن بشكل كبير تحضير بيانات SFT لنماذج الاستدلال. طوّر الباحثون مجموعة بيانات OpenThoughts3-1.2M، وهي مجموعة بيانات استدلال بيانات مفتوحة متقدمة عبر مجالات العلوم والرياضيات والبرمجة. يُحقق نموذج OpenThinker3-7B الناتج أداءً متفوقًا بين نماذج الاستدلال ذات البيانات المفتوحة على نطاقه.

ومع ذلك، لا تزال هناك بعض القيود غير المُستكشفة، بما في ذلك أساليب تعلم التعزيز، والضبط الدقيق المُرحلي، واستراتيجيات تعلم المناهج الدراسية. تشمل اتجاهات البحث المستقبلية التحقيق في تأثيرات النقل عبر المجالات عند تحسين المجالات الفردية مقابل الأداء العام، وفهم ديناميكيات التحجيم مع اقتراب قدرات النماذج الطلابية من قدرات نماذج المُعلّم.

يمكنكم الاطلاع على الورقة البحثية، وصفحة المشروع، وصفحة GitHub. جميع الحقوق محفوظة للباحثين في هذا المشروع.

المصدر: MarkTechPost