إيثير0: ثورة في مجال التفكير الكيميائي بفضل التعلم المعزز

يُعدّ تطوير نماذج اللغات الضخمة (LLMs) خطوةً هائلةً في مجال الذكاء الاصطناعي، حيث تُعزز دقة هذه النماذج بشكل أساسي من خلال زيادة بيانات التدريب والموارد الحاسوبية. ومع ذلك، ومع محدودية البيانات المتاحة، تحول الاهتمام نحو أساليب واسعة النطاق بديلة، مثل تدريب وقت الاختبار وتوسيع نطاق الحسابات الاستنتاجية. تُحسّن نماذج التفكير الأداء من خلال عرض عمليات التفكير قبل تقديم الإجابات، وذلك بدايةً من خلال مطالبات “Chain of Thought” (CoT). وفي الآونة الأخيرة، أصبح استخدام التعلم المعزز (RL) بعد التدريب أمرًا شائعًا.

مجال العلوم: أرض خصبة لنماذج التفكير

تُعدّ المجالات العلمية فرصًا مثالية لنماذج التفكير، وذلك لأنها تتضمن “المسائل العكسية” التي يكون فيها تقييم جودة الحل بسيطًا، بينما يبقى توليد الحل نفسه تحديًا. وعلى الرغم من التوافق المفاهيمي بين التفكير العلمي المنظم وقدرات النموذج، إلا أن الطرق الحالية تفتقر إلى نهج تفصيلي للتفكير العلمي يتجاوز معايير الاختيار من متعدد.

تطور نماذج التفكير: من CoT إلى التعلم المعزز

تطورت نماذج التفكير من الطرق المبكرة القائمة على المطالبات، مثل CoT، و CoT بدون بيانات تدريب، وشجرة التفكير، إلى نهج RL المعقدة عبر “تحسين السياسة النسبية الجماعية” (GRPO) وتوسيع نطاق وقت الاستنتاج. علاوة على ذلك، تركز نماذج التفكير في الكيمياء على معايير قائمة على المعرفة بدلاً من المهام المعقدة للتفكير، مثل التركيب العكسي أو تصميم الجزيئات. وعلى الرغم من أن مجموعات البيانات مثل GPQA-D و MMLU تقيس المعرفة الكيميائية، إلا أنها تفشل في تقييم قدرات التفكير الكيميائي المعقدة.

جهود التفكير العلمي الحالية: مشتتة وغير متكاملة

لا تزال جهود التفكير العلمي الحالية مجزأة، مع محاولات محدودة مثل OmniScience للعلوم العامة، و Med-R1 لمهام الرؤية واللغة الطبية، و BioReason للتفكير الجيني. ومع ذلك، لا يوجد إطار شامل لتدريب نماذج التفكير الكيميائي على نطاق واسع.

إيثير0: تصميم وخصائص النموذج

يقترح باحثون من FutureHouse نموذجًا جديدًا يُسمّى إيثير0 (ether0)، وهو نموذج يُفكّر باللغة الطبيعية ويُخرج الهياكل الجزيئية كسلاسل SMILES. يُظهر هذا النموذج فعالية نماذج التفكير في المهام الكيميائية، متفوقًا على نماذج LLMs الرائدة، والخبراء البشريين، ونماذج الكيمياء العامة. يُعتمد في تدريب هذا النموذج على العديد من التحسينات على RL التقليدي، بما في ذلك تقطير سلوك التفكير، ومنهج ديناميكي، وتهيئة نموذج الخبير لتعزيز الكفاءة والفعالية. بالإضافة إلى ذلك، تم تحليل عوامل مثل كفاءة البيانات، وأنماط الفشل، وسلوك التفكير، مما يسمح بفهم أفضل لفائدة التفكير في حل مشاكل الكيمياء.

خط أنابيب التدريب: تقطير المعرفة ودمج GRPO

يعتمد النموذج على إجراء تدريب متعدد المراحل يتناوب بين مراحل التقطير و GRPO. تُدخِل البنية أربعة رموز خاصة تحدد حدود التفكير والإجابة. يبدأ التدريب بتدريب SFT على تسلسلات CoT طويلة تم توليدها بواسطة DeepSeek-R1، ويتم ترشيحها للتحقق من صحة تنسيق SMILES وجودة التفكير. ثم يقوم التعلم المعزز المتخصص بتحسين السياسات الخاصة بالمهمة لفئات المشاكل المختلفة باستخدام GRPO. بعد ذلك، يُدمج التقطير النماذج المتخصصة في نموذج عام، وذلك من خلال SFT على الاستجابات الصحيحة التي تم جمعها طوال التدريب. تطبق المرحلة الأخيرة GRPO العام على النموذج المُدمج، بما في ذلك الترشيح المستمر للجودة لإزالة التفكير منخفض الجودة والهياكل الجزيئية غير المرغوبة.

تقييم الأداء والمعايير المقارنة

يُظهر إيثير0 أداءً متفوقًا مقارنةً بنماذج LLMs العامة مثل Claude و o1، ونماذج الكيمياء المتخصصة، بما في ذلك ChemDFM و TxGemma. يحقق أعلى دقة في جميع فئات الإجابة المفتوحة، مع الحفاظ على أداء تنافسي في أسئلة الاختيار من متعدد. أما بالنسبة لكفاءة البيانات، يتفوق النموذج على نماذج المحولات الجزيئية التقليدية، حيث تم تدريبه على 60,000 تفاعل فقط مقارنةً بمجموعات بيانات USPTO الكاملة. يُحقق إيثير0 دقة 70% بعد مشاهدة 46,000 مثال تدريبي، بينما حققت نماذج المحولات الجزيئية 64.1% على مجموعات البيانات الكاملة. في ظل ظروف المطالبة بمثال واحد، يتفوق إيثير0 على جميع النماذج الرائدة التي تم تقييمها. نجحت إجراءات محاذاة السلامة في تصفية 80% من الأسئلة غير الآمنة دون تقليل الأداء في مهام الكيمياء الأساسية.

الخاتمة: آثار نماذج LLMs العلمية المستقبلية

في الختام، قدّم الباحثون إيثير0، وهو نموذج يتكون من 24 مليار معلمة، تم تدريبه على عشر مهام جزيئية صعبة. يتفوق هذا النموذج بشكل كبير على نماذج LLMs الرائدة، والخبراء في المجال، والنماذج المتخصصة، وذلك من خلال خط أنابيب RL وتقطير السلوك المتداخلين. يُظهر النموذج كفاءة استثنائية في البيانات وقدرات تفكير متميزة، ويتفوق في مهام الكيمياء ذات الإجابة المفتوحة التي تتضمن تصميم الجزيئات، وإكمالها، وتعديلها، وتوليفها. ومع ذلك، تشمل القيود تحديات التعميم المحتملة خارج الكيمياء العضوية، وفقدان اتباع التعليمات العامة، وعدم وجود تكامل لاستدعاء الأدوات. يُشكل إصدار أوزان النموذج، وبيانات المعايير، ووظائف المكافأة أساسًا يُساعد في تطوير نماذج التفكير العلمي عبر مجالات متنوعة.

المصدر: MarkTechPost