نماذج الذكاء الاصطناعي ترسم كالبشر: تقنية “سكيتش إيجنت”
مقدمة: تجاوز حدود اللغة بالرسم
في سياق التواصل وفهم الأفكار، لا تكفي الكلمات دائماً لنقل المعنى بدقة. في كثير من الأحيان، يكون الرسم التخطيطي البسيط أكثر فعالية، كما هو الحال في رسم دائرة كهربائية لفهم آلية عملها. لكن ماذا لو استطاع الذكاء الاصطناعي أن يساعدنا في استكشاف هذه التصور؟ بينما تتقن أنظمة الذكاء الاصطناعي حالياً إنشاء لوحات واقعية ورسم رسوم كرتونية، إلا أن العديد من النماذج تفشل في التقاط جوهر الرسم التخطيطي: وهي عملية الخطوة بخطوة، التكرارية، التي تساعد البشر على تبادل الأفكار وتعديل كيفية تمثيلها.
تقنية “سكيتش إيجنت”: رسم ذكي كالبشر
طوّر باحثون من مختبر علوم الحاسوب والذكاء الاصطناعي (CSAIL) في معهد ماساتشوستس للتكنولوجيا وجامعة ستانفورد نظام رسم جديد يُسمى “SketchAgent”. يستخدم هذا النظام نموذجاً لغوياً متعدد الوسائط – أنظمة ذكاء اصطناعي تُدرّب على النصوص والصور، مثل نموذج Claude 3.5 Sonnet من Anthropic – لتحويل الإرشادات اللغوية الطبيعية إلى رسومات تخطيطية في ثوانٍ معدودة. فعلى سبيل المثال، يمكنه رسم منزل إما بمفرده أو من خلال التعاون مع الإنسان، مُدمِجاً مدخلات نصية لرسم كل جزء على حدة.
قدرات “سكيتش إيجنت”: تنوع وتفصيل
أظهر الباحثون أن “SketchAgent” قادر على إنشاء رسومات مجردة لمفاهيم متنوعة، مثل روبوت، فراشة، حلزون DNA، مخطط انسيابي، وحتى دار أوبرا سيدني. ويمكن في المستقبل توسيع نطاق هذه الأداة لتصبح لعبة تفاعلية تساعد المعلمين والباحثين في رسم المفاهيم المعقدة أو تقديم دروس سريعة في الرسم للمستخدمين. وتشير الباحثة الرئيسية، يائيل فينكر، باحثة ما بعد الدكتوراه في CSAIL، إلى أن النظام يقدم طريقة أكثر طبيعية للتواصل بين البشر والذكاء الاصطناعي. وتقول: “ليس الجميع يدرك كمية الرسومات التي ينجزها في حياته اليومية. قد نرسم أفكارنا أو نقوم بتعديلها من خلال الرسومات التخطيطية. تهدف أداةنا إلى محاكاة هذه العملية، مما يجعل النماذج اللغوية متعددة الوسائط أكثر فائدة في مساعدتنا على التعبير عن الأفكار بصرياً.”
منهجية “سكيتش إيجنت”: لغة الرسم
يُعلّم “SketchAgent” هذه النماذج الرسم خطوة بخطوة دون الحاجة إلى تدريب على أي بيانات. بدلاً من ذلك، طور الباحثون “لغة رسم” حيث يتم ترجمة الرسم إلى تسلسل مُرقّم من الخطوط على شبكة. تم تزويد النظام بمثال لكيفية رسم أشياء مثل المنزل، مع تسمية كل خط وفقاً لما يمثله – مثل أن يكون الخط السابع مستطيلاً مُسمى “باب أمامي” – لمساعدة النموذج على تعميم المفاهيم الجديدة.
مقارنة “سكيتش إيجنت” بالأنظمة الأخرى: التفوق في الرسم التخطيطي
بينما يمكن لأنظمة النص إلى صورة مثل DALL-E 3 إنشاء رسومات رائعة، إلا أنها تفتقر إلى عنصر أساسي في الرسم التخطيطي: العملية التلقائية والإبداعية حيث يمكن لكل خط أن يؤثر على التصميم العام. من ناحية أخرى، يتم تصميم رسومات “SketchAgent” على شكل تسلسل من الخطوط، مما يجعلها تبدو أكثر طبيعية وسلاسة، مثل الرسومات البشرية. وقد حاكى عمل سابق هذه العملية، لكنه درّب نماذجه على مجموعات بيانات رسمها بشر، والتي غالباً ما تكون محدودة في الحجم والتنوع. يستخدم “SketchAgent” نماذج لغوية مُدرّبة مسبقاً، وهي على دراية بالعديد من المفاهيم، لكنها لا تعرف كيفية الرسم. عندما درّب الباحثون النماذج اللغوية على هذه العملية، بدأ “SketchAgent” في رسم مفاهيم متنوعة لم يُدرّب عليها صراحة.
التعاون البشري-الذكاء الاصطناعي: دور “سكيتج إيجنت”
أجرى الباحثون تجارب لمعرفة ما إذا كان “SketchAgent” يعمل بنشاط مع البشر في عملية الرسم، أو ما إذا كان يعمل بشكل مستقل عن شريكه في الرسم. اختبر الفريق نظامه في وضع التعاون، حيث يعمل الإنسان ونموذج اللغة معاً لرسم مفهوم معين. أظهرت إزالة مساهمات “SketchAgent” أن خطوط الأداة كانت أساسية للرسم النهائي. فعلى سبيل المثال، في رسم شراع، جعلت إزالة الخطوط الاصطناعية التي تمثل الصاري الرسم النهائي غير قابل للتعرف عليه.
تجربة نماذج لغوية متعددة: تفوق Claude 3.5 Sonnet
قام باحثو CSAIL وستانفورد بتوصيل نماذج لغوية متعددة الوسائط مختلفة بـ”SketchAgent” لمعرفة أيها يمكنه إنشاء الرسومات الأكثر قابلية للتعرف عليها. أنتج نموذجهم الأساسي، Claude 3.5 Sonnet، رسومات متجهة تشبه الرسومات البشرية (وهي ملفات نصية يمكن تحويلها إلى صور عالية الدقة). وقد تفوق على نماذج مثل GPT-4o و Claude 3 Opus. وتقول تامار روت شاهم، المؤلفة المشاركة: “إن حقيقة أن Claude 3.5 Sonnet تفوق على نماذج أخرى مثل GPT-4o و Claude 3 Opus تشير إلى أن هذا النموذج يعالج ويولد المعلومات المتعلقة بالبصر بشكل مختلف.”
آفاق مستقبلية: تعزيز التفاعل وتطوير الأداء
بينما تعد مهارة “SketchAgent” في الرسم واعدة، إلا أنه لا يستطيع إنشاء رسومات احترافية بعد. فهو يُنشئ تمثيلاً بسيطاً للمفاهيم باستخدام أشكال عصا ورسم تخطيطي بسيط، ولكنه يكافح لرسم أشياء مثل الشعارات، والجمل، والمخلوقات المعقدة مثل وحيد القرن والأبقار، والأشكال البشرية المحددة. في بعض الأحيان، أسيء فهم النموذج لنوايا المستخدمين في الرسومات التعاونية، مثل عندما رسم “SketchAgent” أرنباً برأسين. وفقاً لـفينكر، قد يكون هذا لأن النموذج يُقسم كل مهمة إلى خطوات أصغر (يُطلق عليها أيضاً “سلسلة التفكير”). عندما يعمل مع البشر، ينشئ النموذج خطة رسم، وقد يُسيء تفسير الجزء الذي يساهم فيه الإنسان. يمكن للباحثين تحسين هذه المهارات في الرسم من خلال التدريب على بيانات اصطناعية من نماذج الانتشار.
الخاتمة: نحو تعاون أكثر انسجاماً بين البشر والذكاء الاصطناعي
بالإضافة إلى ذلك، غالباً ما يتطلب “SketchAgent” بضع جولات من الإرشادات لإنشاء رسومات تخطيطية تشبه الرسومات البشرية. في المستقبل، يهدف الفريق إلى تسهيل التفاعل والرسم مع النماذج اللغوية متعددة الوسائط، بما في ذلك تحسين واجهتها. مع ذلك، تشير الأداة إلى أن الذكاء الاصطناعي يمكنه رسم مفاهيم متنوعة بالطريقة التي يفعلها البشر، من خلال تعاون خطوة بخطوة بين الإنسان والذكاء الاصطناعي، مما ينتج عنه تصاميم نهائية أكثر انسجاماً. تم دعم هذا العمل جزئياً من قبل المؤسسة الوطنية للعلوم في الولايات المتحدة، ومنحة هوفمان-يي من معهد ستانفورد للذكاء الاصطناعي المُركز على الإنسان، وشركة هيونداي موتور، ومختبر أبحاث الجيش الأمريكي، وبرنامج زوكرمين للقيادة في مجال العلوم والتكنولوجيا والهندسة والرياضيات، ومنحة فيتربي.
اترك تعليقاً