نموذج حاسوبي متطور للتنبؤ بذوبان الجزيئات في المذيبات العضوية

مقدمة

طور مهندسو الكيمياء الحيوية في معهد ماساتشوستس للتكنولوجيا (MIT) نموذجًا حاسوبيًا قائمًا على تقنيات تعلم الآلة، قادرًا على التنبؤ بدقة ذوبان أي جزيء في مذيب عضوي. تُعد هذه الخطوة أساسية في تصنيع الأدوية والكثير من المركبات الكيميائية الأخرى. يُسهم هذا النموذج في تسهيل تطوير طرق جديدة لإنتاج الأدوية والجزيئات المفيدة.

أهمية التنبؤ بذوبان الجزيئات

يُعتبر التنبؤ بدقة ذوبان المواد المُذابة في مذيبات محددة خطوة محددة للسرعة في التخطيط الاصطناعي وتصنيع المواد الكيميائية، خاصة الأدوية. لذا، كان هناك اهتمامٌ كبيرٌ منذ فترة طويلة بتحسين دقة التنبؤات المتعلقة بالذوبان، كما يوضح طالب الدراسات العليا في معهد ماساتشوستس للتكنولوجيا، لوكاس أتيا، أحد المؤلفين الرئيسيين للدراسة. تشمل المذيبات العضوية الشائعة الإيثانول والأسيتون، وهناك المئات من المذيبات الأخرى التي يمكن استخدامها في التفاعلات الكيميائية.

النموذج الجديد ومدى توفره

قام الباحثون بجعل نموذجهم متاحًا مجانًا، وقد بدأت العديد من الشركات والمختبرات في استخدامه بالفعل. يُعدّ النموذج مفيدًا بشكل خاص في تحديد المذيبات الأقل ضررًا من بعض المذيبات الصناعية الشائعة الاستخدام، كما يشير جاكسون بيرنز، طالب الدراسات العليا في معهد ماساتشوستس للتكنولوجيا، وهو أيضًا مؤلف رئيسي للورقة البحثية. يُساعد النموذج في تحديد المذيبات البديلة الأقل ضررًا بالبيئة.

مقارنة مع النماذج التقليدية

تقليديًا، كان الكيميائيون يتنبؤون بالذوبان باستخدام أداة تُعرف باسم نموذج إبراهام للذوبان، الذي يُقدر قابلية ذوبان الجزيء الإجمالية عن طريق جمع مساهمات الهياكل الكيميائية داخل الجزيء. بينما تُعد هذه التنبؤات مفيدة، إلا أن دقتها محدودة. في السنوات القليلة الماضية، بدأ الباحثون في استخدام تقنيات تعلم الآلة لتحسين دقة تنبؤات الذوبان. قبل أن يبدأ بيرنز وأتيا العمل على نموذجهما الجديد، كان أفضل نموذج للتنبؤ بالذوبان هو نموذج SolProp الذي تم تطويره في مختبر غرين عام 2022. يعمل هذا النموذج عن طريق التنبؤ بمجموعة من الخصائص ذات الصلة ودمجها، باستخدام الديناميكا الحرارية، للتنبؤ النهائي بالذوبان. ومع ذلك، يواجه النموذج صعوبة في التنبؤ بذوبان المواد المُذابة التي لم يسبق له رؤيتها من قبل.

مجموعة البيانات الضخمة (BigSolDB) ودورها في تطوير النموذج

كان أحد أسباب عدم نجاح نماذج الذوبان الموجودة هو عدم وجود مجموعة بيانات شاملة لتدريبها. ومع ذلك، في عام 2023، تم إصدار مجموعة بيانات جديدة تسمى BigSolDB، والتي جمعت بيانات من ما يقرب من 800 ورقة بحثية منشورة، بما في ذلك معلومات حول الذوبان لما يقرب من 800 جزيء مذاب في أكثر من 100 مذيب عضوي شائع الاستخدام في الكيمياء التركيبية.

مقارنة بين نموذجي FastProp و ChemProp

قرر أتيا وبيرنز تدريب نوعين مختلفين من النماذج على هذه البيانات. يمثل كلا النموذجين الهياكل الكيميائية للجزيئات باستخدام تمثيلات رقمية تُعرف باسم الاندماجات (embeddings)، والتي تتضمن معلومات مثل عدد الذرات في الجزيء والذرات المرتبطة ببعضها البعض. يمكن للنماذج بعد ذلك استخدام هذه التمثيلات للتنبؤ بمجموعة متنوعة من الخصائص الكيميائية.

  • FastProp: يستخدم اندماجات ثابتة (static embeddings)، مما يعني أن النموذج يعرف بالفعل الاندماج لكل جزيء قبل أن يبدأ في أي نوع من التحليل.
  • ChemProp: يتعلم اندماجًا لكل جزيء أثناء التدريب، في نفس الوقت الذي يتعلم فيه ربط ميزات الاندماج بسمة مثل الذوبان.

قام الباحثون بتدريب كلا النوعين من النماذج على أكثر من 40,000 نقطة بيانات من BigSolDB، بما في ذلك معلومات حول تأثيرات درجة الحرارة، والتي تلعب دورًا مهمًا في الذوبان. ثم اختبروا النماذج على حوالي 1000 مادة مُذابة تم حجبها من بيانات التدريب. وجدوا أن تنبؤات النماذج كانت أكثر دقة من تنبؤات SolProp، أفضل نموذج سابق، وكانت النماذج الجديدة دقيقة بشكل خاص في التنبؤ بالاختلافات في الذوبان بسبب درجة الحرارة.

نتائج الدراسة والملاحظات

توقع الباحثون أن النموذج القائم على ChemProp، والذي يستطيع تعلم تمثيلات جديدة أثناء عمله، سيكون قادرًا على إجراء تنبؤات أكثر دقة. ومع ذلك، فوجئوا بأن كلا النموذجين حققا أداءً متشابهًا تقريبًا. هذا يشير إلى أن القيد الرئيسي على أدائهما هو جودة البيانات، وأن النماذج تعمل بأفضل ما يمكن نظريًا بناءً على البيانات التي تستخدمها.

تحسينات مستقبلية

يمكن أن تصبح النماذج أكثر دقة، كما يقول الباحثون، إذا كانت هناك بيانات تدريب واختبار أفضل متاحة – من الناحية المثالية، البيانات التي تم الحصول عليها من قبل شخص واحد أو مجموعة من الأشخاص المدربين جميعًا على إجراء التجارب بنفس الطريقة. يُعدّ اختلاف أساليب التجارب و الظروف التجريبية بين المختبرات المختلفة من العوامل التي تُؤثر على دقة النماذج.

نموذج FastSolv والتوفر العام

نظرًا لأن النموذج القائم على FastProp يُجري تنبؤاته بشكل أسرع ولديه شفرة أسهل للمستخدمين الآخرين في التكيف، فقد قرر الباحثون جعله متاحًا للجمهور تحت اسم FastSolv. وقد بدأت العديد من شركات الأدوية في استخدامه بالفعل.

المصدر: MIT News