تحديثاتٌ أساسيةٌ تُعزز إطار عمل وكلاء الذكاء الاصطناعي من أوبن إيه آي

أعلنت شركة أوبن إيه آي عن مجموعة من التحديثات المهمة لإطار عمل تطوير وكلاء الذكاء الاصطناعي الخاص بها، بهدف توسيع توافق المنصة، وتحسين دعم واجهات الصوت، وتعزيز إمكانية المراقبة. تعكس هذه التحديثات التقدم المستمر نحو بناء وكلاء ذكاء اصطناعي عمليين، قابلين للتحكم، وخاضعين للمراجعة، ويمكن دمجهم في التطبيقات الواقعية عبر بيئات العميل والخادم.

1. دعم TypeScript لـ Agents SDK

أصبح Agents SDK متوفرًا الآن بلغة TypeScript، مما يوسع نطاق التنفيذ الحالي بلغة Python للمطورين العاملين في بيئات JavaScript و Node.js. يوفر SDK بـ TypeScript نفس وظائف النسخة الخاصة بـ Python، بما في ذلك المكونات الأساسية مثل:

  • التحويلات (Handoffs): آليات لتوجيه التنفيذ إلى وكلاء أو عمليات أخرى.
  • القيود (Guardrails): عمليات فحص وقت التشغيل التي تحد من سلوك الأداة ضمن حدود محددة.
  • التتبع (Tracing): نقاط ربط لجمع القياسات المنظمة أثناء تنفيذ الوكيل.
  • بروتوكول سياق النموذج (MCP): بروتوكولات لنقل الحالة السياقية بين خطوات الوكيل وطلبات الأدوات.

يُحاكي هذا الإضافة التطبيقات الحديثة على الويب والتطبيقات السحابية الأصلية. يمكن للمطورين الآن بناء ونشر الوكلاء عبر سياقات الواجهة الأمامية (المتصفح) والخلفية (Node.js) باستخدام مجموعة موحدة من التجريدات. تتوفر الوثائق المفتوحة على الرابط openai-agents-js.

2. RealtimeAgent مع إمكانيات Human-in-the-Loop

أدخلت أوبن إيه آي تجريدًا جديدًا يُسمى RealtimeAgent لدعم تطبيقات الصوت الحساسة للوقت. يوسع RealtimeAgents Agents SDK بإضافة إدخال/إخراج صوتي، وتفاعلات ذات حالة، ومعالجة المقاطعات. من بين الميزات الأكثر أهمية هي الموافقة من نوع Human-in-the-Loop (HITL)، والتي تسمح للمطورين باعتراض تنفيذ الوكيل أثناء وقت التشغيل، وتسلسل حالته، والطلب من المستخدم تأكيدًا يدويًا قبل المتابعة. هذا مهم بشكل خاص للتطبيقات التي تتطلب الإشراف، أو نقاط فحص الامتثال، أو التحقق المحدد للنطاق أثناء تنفيذ الأداة. يمكن للمطورين إيقاف التنفيذ، وفحص الحالة المُسلسلة، واستئناف الوكيل مع الاحتفاظ بالسياق الكامل. يُوصف سير العمل بالتفصيل في وثائق HITL الخاصة بـ أوبن إيه آي.

3. إمكانية تتبع جلسات Realtime API

إلى جانب ميزة RealtimeAgent، وسّعت أوبن إيه آي لوحة معلومات Traces لتشمل دعم جلسات وكلاء الصوت. يغطي التتبع الآن جلسات Realtime API الكاملة – سواء تم بدء تشغيلها عبر SDK أو مباشرةً من خلال مكالمات API. تتيح واجهة Traces تصور ما يلي:

  • إدخالات ومخرجات الصوت (متدفقة أو مُخزنة مؤقتًا)
  • استدعاءات الأدوات ومعلماتها
  • مقاطعات المستخدم واستئناف الوكيل

يوفر هذا سجلًا دقيقًا ثابتًا لكل من الوكلاء القائمين على النصوص والوكلاء القائمين على الصوت، مما يُبسط عملية تصحيح الأخطاء، وضمان الجودة، وضبط الأداء عبر الوسائط المختلفة. يتم توحيد تنسيق التتبع ويدمج مع مجموعة المراقبة الأوسع لأوبن إيه آي، مما يوفر الرؤية دون الحاجة إلى أدوات قياس إضافية. تتوفر تفاصيل التنفيذ الإضافية في دليل وكلاء الصوت على الرابط openai-agents-js/guides/voice-agents.

4. تحسينات في خط أنابيب الكلام إلى الكلام

أجرت أوبن إيه آي أيضًا تحديثات على نموذج الكلام إلى الكلام الأساسي، الذي يُشغل التفاعلات الصوتية في الوقت الفعلي. تركز التحسينات على تقليل وقت الانتظار، وتحسين الطبيعية، ومعالجة المقاطعات بشكل أكثر فعالية. في حين أن القدرات الأساسية للنموذج – التعرف على الكلام، والتركيب، والتغذية الراجعة في الوقت الفعلي – تظل كما هي، إلا أن التحسينات توفر محاذاة أفضل لأنظمة الحوار حيث يكون الاستجابة وتنوع النبرة أمرًا ضروريًا. يشمل ذلك:

  • تدفق منخفض وقت الانتظار: تبادل الأدوار الفوري في المحادثات المنطوقة.
  • إنشاء صوت معبر: تحسين النبرة ونماذج التوقف.
  • قوة التحمل ضد المقاطعات: يمكن للوكلاء الاستجابة بشكل جيد للمدخلات المتداخلة.

تتوافق هذه التغييرات مع جهود أوبن إيه آي الأوسع نطاقًا لدعم الوكلاء المجسّدين والمحادثة الذين يعملون في سياقات متعددة الوسائط وديناميكية.

في الختام:

تعزز هذه التحديثات الأربعة أساس بناء وكلاء ذكاء اصطناعي مُمكّنين بالصوت، وقابلين للتتبع، وسهلة الاستخدام للمطورين. من خلال توفير تكاملات أعمق مع بيئات TypeScript، وإدخال نقاط تحكم منظمة في التدفقات في الوقت الفعلي، وتعزيز إمكانية المراقبة وجودة تفاعل الكلام، تستمر أوبن إيه آي في التقدم نحو نظام بيئي أكثر وحدة وقابلية للتشغيل البيني للوكلاء.

المصدر: MarkTechPost