من إليزا إلى نمذجة المحادثة: رحلة تطور أنظمة الذكاء الاصطناعي المحادثي
يُعتبر تطور أنظمة الذكاء الاصطناعي المحادثي رحلةً مثيرةً بدأت من أنظمة بسيطة قائمة على القواعد في ستينيات القرن الماضي، وصولاً إلى المنصات المتطورة التي نراها اليوم. سنستعرض في هذا المقال هذه الرحلة، بدءًا من برنامج إليزا ووصولاً إلى نماذج اللغات الكبيرة ونهج نمذجة المحادثة الجديد.
إليزا: أصل الوكلاء المحادثين (ستينيات القرن العشرين)
بدأ تاريخ الذكاء الاصطناعي المحادثي مع برنامج إليزا، الذي ابتكره جوزيف فايزنباوم في معهد ماساتشوستس للتكنولوجيا عام 1966. كان إليزا روبوت محادثة قائمًا على القواعد، يستخدم مطابقة الأنماط البسيطة وقواعد الاستبدال لمحاكاة المحادثة. أشهر سيناريو لإليزا، يُدعى “الدكتور”، كان يُحاكي طبيبًا نفسيًا روجيريًا: يعكس مدخلات المستخدم كأسئلة أو مطالبات. على سبيل المثال، إذا قال المستخدم “أشعر بالتوتر بسبب العمل”، قد يجيب إليزا: “لماذا تشعر بالتوتر بسبب العمل؟”. هذا خلق وهمًا بالفهم دون أي فهم حقيقي للمعنى.
كان إليزا أحد أول البرامج التي حاولت اجتياز اختبار تورينج (المشاركة في حوار لا يُميز عن حوار إنسان). على الرغم من بساطة النظام، أثبت إليزا أن البشر يمكن إقناعهم مؤقتًا بأنهم يتحدثون مع كيان يفهم – وهي ظاهرة أُطلق عليها لاحقًا اسم “تأثير إليزا”. حفز هذا النجاح المبكر اهتمامًا واسعًا ووضع الأساس لتطوير روبوتات المحادثة، على الرغم من أن قدرات إليزا كانت بدائية ومكتوبة بالكامل.
روبوتات المحادثة المكتوبة: أنظمة القوائم و AIML (ثمانينيات وتسعينيات القرن العشرين)
بعد إليزا، ظلت الأنظمة المحادثة قائمة على القواعد إلى حد كبير، لكنها أصبحت أكثر تطوراً. كانت العديد من روبوتات خدمة العملاء المبكرة وأنظمة الرد الصوتي التفاعلي في الثمانينيات والتسعينيات من القرن الماضي تعتمد على القوائم – حيث توجه المستخدمين من خلال خيارات محددة مسبقًا (مثل “اضغط 1 للحصول على معلومات عن الحساب، 2 للدعم”) بدلاً من “فهم” النص الحر حقًا.
في الوقت نفسه تقريبًا، استخدمت روبوتات النصوص الأكثر تقدمًا مجموعات قواعد أكبر ومكتبات أنماط لتبدو محادثة. كان أحد المعالم البارزة هو A.L.I.C.E. (Artificial Linguistic Internet Computer Entity)، الذي تم تقديمه عام 1995 بواسطة ريتشارد والاس. استخدمت ALICE لغة برمجة متخصصة تسمى AIML (Artificial Intelligence Markup Language) لإدارة قواعد المحادثة. بدلاً من ترميز كل استجابة بشكل ثابت، سمح AIML للمطورين بتعريف الأنماط وقوالب الردود. نتيجة لذلك، كان لدى ALICE قاعدة ضخمة تضم حوالي 41000 قالبًا مسبقًا وأزواج نمط-استجابة. سمح هذا لها بالمشاركة في محادثات أكثر تنوعًا وطبيعية من حيل الكلمات الرئيسية البسيطة في إليزا. حتى أنها حصلت على جائزة Loebner (مسابقة للذكاء الاصطناعي المحادثي) عدة مرات في أوائل العقد الأول من القرن الحادي والعشرين.
على الرغم من هذه التحسينات، ما زالت روبوتات المحادثة مثل ALICE ونظيراتها تعتمد على نصوص ثابتة. كانت تفتقر إلى الفهم الحقيقي، ويمكن بسهولة إخراجها عن مسارها بواسطة مدخلات خارج أنماطها المكتوبة. في الممارسة العملية، كان على المطورين غالبًا توقع عدد لا يحصى من الصياغات أو توجيه المستخدمين للبقاء ضمن المدخلات المتوقعة (ومن هنا جاءت شعبية تصميمات القوائم من أجل الموثوقية). بحلول أواخر التسعينيات، كان النموذج في الصناعة هو أن روبوتات المحادثة كانت في الأساس أنظمة خبيرة: مجموعات كبيرة من قواعد if-then أو أشجار القرار. عملت هذه الأنظمة في المهام المحددة بدقة (مثل أسئلة وأجوبة دعم تقني أو ألعاب حوار بسيطة) ولكنها كانت هشة وتتطلب الكثير من العمل لتوسيعها. ومع ذلك، أظهر هذا العصر أنه مع وجود قواعد كافية، يمكن لروبوت محادثة التعامل مع حوارات معقدة بشكل مدهش – وهي خطوة نحو نهج أكثر اعتمادًا على البيانات.
صعود التعلم الآلي وأطر NLU الهجينة (عشرينية القرن الحادي والعشرين)
شهد العقد الأول من القرن الحادي والعشرين تحولًا نحو التعلم الآلي (ML) في الذكاء الاصطناعي المحادثي، بهدف جعل روبوتات المحادثة أقل هشاشة وأسهل في البناء. بدلاً من كتابة آلاف القواعد يدويًا، بدأ المطورون في استخدام تقنيات فهم اللغة الطبيعية (NLU) الإحصائية لتفسير مدخلات المستخدم. جسدت أطر عمل مثل Dialogflow من جوجل ومنصة Rasa مفتوحة المصدر (مفتوحة المصدر عام 2017) هذا النهج الهجين. سمحت هذه الأطر للمطورين بتعريف المقاصد (أهداف المستخدم) والكيانات (المعلومات الرئيسية)، ثم تدريب نماذج التعلم الآلي على عبارات مثال. تعمم نموذج التعلم الآلي من هذه الأمثلة، لذلك يمكن للروبوت التعرف على طلب المستخدم حتى لو تم صياغته بطريقة غير متوقعة. على سبيل المثال، سواء قال المستخدم “حجز لي رحلة غدًا” أو “أحتاج إلى السفر غدًا”، يمكن لنموذج تصنيف المقاصد أن يتعلم تعيين كليهما إلى نفس مقصد “حجز رحلة”. قلل هذا بشكل كبير من الحاجة إلى إنشاء كل نمط ممكن يدويًا.
بمرور الوقت، أدرجت هذه النماذج NLU ابتكارات تعتمد على Transformer لتعزيز الدقة. على سبيل المثال، قدمت Rasa بنية DIET (Dual Intent and Entity Transformer)، وهي شبكة Transformer خفيفة الوزن لتصنيف المقاصد واستخراج الكيانات. تقترب هذه النماذج من أداء فهم اللغة في محولات كبيرة مدربة مسبقًا مثل BERT، ولكنها مصممة خصيصًا لمقاصد/كيانات روبوت المحادثة. في غضون ذلك، ظلت إدارة الحوار في هذه الأطر قائمة على القواعد في كثير من الأحيان أو تتبع رسوم بيانية لقصة حددها المطورون. في Dialogflow، كان المرء يصمم تدفقات محادثة مع سياقات وعمليات انتقال. في Rasa، يمكن للمرء كتابة قصص أو قواعد تحدد كيف يجب أن يستجيب الروبوت أو الإجراء الذي يجب اتخاذه بعد ذلك نظرًا للمقصد المعترف به وحالة الحوار.
كان هذا المزيج من التعلم الآلي + القواعد خطوة كبيرة للأمام. سمح لروبوتات المحادثة بالتعامل مع المزيد من اختلافات اللغة الطبيعية مع الحفاظ على تدفقات مُتحكم بها للمنطق التجاري. تم بناء العديد من المساعدين الافتراضيين وروبوتات دعم العملاء التي تم نشرها في أواخر العقد الأول من القرن الحادي والعشرين (على منصات مثل Facebook Messenger أو Slack أو مواقع الويب المصرفية) بهذه الطريقة. ومع ذلك، ظلت التحديات قائمة. يمكن أن يصبح تصميم وصيانة تدفقات المحادثة معقدًا مع نمو نطاق المساعد. قد تتطلب كل ميزة جديدة أو حالة حدية إضافة مقاصد جديدة، وبيانات تدريب إضافية، وفروع حوار إضافية – مما قد يؤدي إلى تشابك الحالات (إطار عمل “قائم على الرسم البياني” يمكن أن يصبح معقدًا بشكل ساحق مع نمو الوكيل). علاوة على ذلك، بينما كانت هذه الأنظمة أكثر مرونة من القواعد البحتة، إلا أنها لا تزال قد تفشل إذا خرج المستخدمون عن النص أو سألوا عن شيء خارج البيانات المدربة.
عصر نماذج اللغات الكبيرة: المحادثات القائمة على المطالبات و RAG (عشرينية القرن الحادي والعشرين)
جاءت لحظة فاصلة مع ظهور نماذج اللغات الكبيرة (LLMs) في أوائل العقد الثاني من القرن الحادي والعشرين. أظهرت نماذج مثل GPT-3 من OpenAI (2020) ولاحقًا ChatGPT (2022) أن شبكة عصبية واحدة ضخمة مُدرّبة على بيانات على نطاق الإنترنت يمكنها المشاركة في محادثات مفتوحة النهاية بطلاقة ملحوظة. يمكن لـ ChatGPT، على سبيل المثال، إنشاء استجابات يصعب غالبًا تمييزها عن النص المكتوب من قبل الإنسان، ويمكنه إجراء حوار يمتد عبر العديد من الأدوار دون قواعد صريحة مكتوبة بواسطة مطور.
بدلاً من تحديد المقاصد أو كتابة أشجار الحوار، يمكن للمطورين الآن تقديم مطالبة (مثل تعليمات بدء مثل “أنت وكيل خدمة عملاء مفيد…”) والسماح لنموذج اللغة الكبير بإنشاء المحادثة. يقلب هذا النهج النموذج القديم: بدلاً من أن يقوم المطور بتخطيط المحادثة صراحةً، تعلم النموذج نفسه أنماط المحادثة من بيانات التدريب الخاصة به ويمكنه إنتاج إجابات ديناميكيًا.
ومع ذلك، فإن استخدام نماذج اللغات الكبيرة لوكلاء محادثة موثوقين جلب تحديات جديدة. أولاً، تتمتع النماذج الكبيرة بحدود معرفية ثابتة (معرفة ChatGPT الأساسية، على سبيل المثال، لم تصل إلا إلى بيانات عام 2021 في إصدارها الأولي). وهي عرضة لـ “الهلوسة” – توليد معلومات غير صحيحة أو ملفقة بثقة عندما يُسأل عن شيء خارج معرفتها. للتعامل مع هذا، أصبحت تقنية تسمى توليد المعزز بالاسترجاع (RAG) شائعة. يقوم RAG بإقران نموذج اللغة الكبير بمصدر معرفة خارجي: عندما يطرح المستخدم سؤالاً، يسترجع النظام أولاً المستندات ذات الصلة (من قاعدة بيانات أو فهرس بحث) ثم يقدمها إلى سياق النموذج حتى يتمكن من بناء إجابته على معلومات دقيقة وحديثة. تساعد هذه الطريقة في معالجة فجوة المعرفة وتقلل من الهلوسة من خلال ربط استجابات نموذج اللغة الكبير ببيانات حقيقية. يستخدم العديد من روبوتات الأسئلة والأجوبة الحديثة والمساعدين في المؤسسات RAG – على سبيل المثال، قد يسترجع روبوت محادثة لدعم العملاء مستندات سياسات أو معلومات عن حساب المستخدم حتى تكون إجابة نموذج اللغة الكبير دقيقة ومخصصة.
أداة أخرى في هذا العصر هي استخدام مطالبات النظام وأمثلة قليلة اللقطات لتوجيه سلوك نموذج اللغة الكبير. من خلال تقديم تعليمات مثل “الرد دائمًا بنبرة رسمية”، أو تقديم أمثلة لأزواج أسئلة وأجوبة مرغوبة، يحاول المطورون توجيه أسلوب النموذج والتزامه بالقواعد. هذا أمر قوي ولكنه ليس مضمونًا: غالبًا ما تتجاهل نماذج اللغات الكبيرة التعليمات إذا كانت المحادثة طويلة أو إذا كانت المطالبة معقدة، حيث تسقط أجزاء منها خارج انتباهها. في الأساس، تفتقر المطالبات البحتة للضمانات – لا يزال سلوك النموذج المُتعلم هو الذي يقرر النتيجة. وبينما يمكن لـ RAG حقن الحقائق، إلا أنه “لا يمكنه توجيه السلوك” أو فرض تدفقات حوار معقدة. على سبيل المثال، سيساعد RAG روبوتًا في الاستشهاد بالسعر الصحيح من قاعدة بيانات، لكنه لن يضمن اتباع الروبوت لبروتوكول تصعيد الشركة أو الحفاظ على شخصية متسقة تتجاوز ما تقترحه المطالبة.
بحلول أواخر عام 2024، كان لدى المطورين مزيج من الأساليب للذكاء الاصطناعي المحادثي:
- التحسين الدقيق لنموذج اللغة الكبير على بيانات مخصصة لتخصيصه: (وهو ما يمكن أن يكون مكلفًا وغير مرن، وغالب
اترك تعليقاً