ياmbda: أكبر مجموعة بيانات عالمية لتسريع أنظمة التوصية

قدمَتْ شركة ياندكس مؤخراً إسهاماً كبيراً في مجتمع أنظمة التوصية عبر إطلاق ياmbda، أكبر مجموعة بيانات عامة متاحة عالمياً لأبحاث وتطوير أنظمة التوصية. صُممت هذه المجموعة لسدّ الفجوة بين الأبحاث الأكاديمية والتطبيقات الصناعية الضخمة، حيث تقدم ما يقارب 5 مليارات حدث تفاعل مُجهّل من بيانات ياندكس ميوزك، إحدى خدمات البث الرئيسية للشركة والتي تضم أكثر من 28 مليون مستخدم شهرياً.

أهمية ياmbda: معالجة فجوة البيانات الحرجة في أنظمة التوصية

تُشكل أنظمة التوصية ركيزةً أساسيةً للخبرات الشخصية في العديد من الخدمات الرقمية اليوم، بدءاً من التجارة الإلكترونية وشبكات التواصل الاجتماعي ووصولاً إلى منصات البث. تعتمد هذه الأنظمة بشكل كبير على كميات هائلة من بيانات السلوك، مثل النقرات والإعجابات والاستماع، لاستنتاج تفضيلات المستخدمين وتقديم محتوى مُصمّم خصيصاً لهم.

ومع ذلك، فقد تأخرت أنظمة التوصية عن غيرها من مجالات الذكاء الاصطناعي، مثل معالجة اللغة الطبيعية، ويعود ذلك إلى حد كبير إلى ندرة مجموعات البيانات الكبيرة والمتاحة للجميع. فعلى عكس نماذج اللغة الضخمة (LLMs)، التي تتعلم من مصادر نصية متاحة للجمهور، تحتاج أنظمة التوصية إلى بيانات سلوكية حساسة – وهي بيانات ذات قيمة تجارية عالية ويصعب إخفاء هوية أصحابها. ونتيجة لذلك، حافظت الشركات تقليدياً على سرية هذه البيانات، مما حدّ من وصول الباحثين إلى مجموعات بيانات على نطاق واسع.

أما مجموعات البيانات الموجودة، مثل مجموعة بيانات Spotify لملايين قوائم التشغيل، وبيانات جائزة Netflix، وسجلات نقرات Criteo، فهي إما صغيرة جداً، أو تفتقر إلى التفاصيل الزمنية، أو غير موثقة بشكل جيد لتطوير نماذج أنظمة توصية على مستوى الإنتاج. يعالج إصدار ياندكس لـ ياmbda هذه التحديات من خلال توفير مجموعة بيانات شاملة وعالية الجودة مع مجموعة غنية من الميزات ووسائل حماية الخصوصية.

محتويات ياmbda: الحجم، والغنى، والخصوصية

تتكون مجموعة بيانات ياmbda من 4.79 مليار تفاعل مستخدم مُجهّل تم جمعها على مدار 10 أشهر. تأتي هذه التفاعلات من حوالي مليون مستخدم يتفاعلون مع ما يقارب 9.4 مليون أغنية على ياندكس ميوزك. تتضمن المجموعة البيانات ما يلي:

  • تفاعلات المستخدم: ردود فعل ضمنية (الاستماع) و صريحة (الإعجابات، عدم الإعجاب، وإزالة الإعجابات).
  • المداخلات الصوتية المُجهلة: تمثيلات متجهة للأغاني مُشتقة من الشبكات العصبية التلافيفية، مما يُمكّن النماذج من الاستفادة من تشابه محتوى الصوت.
  • علامات التفاعل العضوي: تُشير علامة “is_organic” إلى ما إذا كان المستخدمون قد اكتشفوا أغنية بشكل مستقل أو عبر توصيات، مما يُيسّر تحليل السلوك.
  • العلامات الزمنية الدقيقة: يتم وضع علامة زمنية لكل حدث للحفاظ على الترتيب الزمني، وهو أمر بالغ الأهمية لنمذجة سلوك المستخدم المتسلسل.

تم إخفاء هوية جميع مُعرّفات المستخدمين والأغاني باستخدام معرفات رقمية للوفاء بمعايير الخصوصية، مما يضمن عدم الكشف عن أي معلومات شخصية قابلة للتعريف. تُقدّم مجموعة البيانات بتنسيق Apache Parquet، المُحسّن لأطر عمل معالجة البيانات الضخمة مثل Apache Spark وHadoop، ومتوافق أيضاً مع مكتبات التحليل مثل Pandas وPolars. هذا يجعل ياmbda في متناول الباحثين والمطورين العاملين في بيئات متنوعة.

طريقة التقييم: التقسيم الزمني العالمي

إحدى الابتكارات الرئيسية في مجموعة بيانات ياندكس هي اعتماد إستراتيجية تقييم التقسيم الزمني العالمي (GTS). في أبحاث أنظمة التوصية النموذجية، تزيل طريقة Leave-One-Out المُستخدمة على نطاق واسع آخر تفاعل لكل مستخدم للاختبار. ومع ذلك، يُخل هذا النهج بالاستمرارية الزمنية لتفاعلات المستخدم، مما يخلق ظروف تدريب غير واقعية.

من ناحية أخرى، يقسم GTS البيانات بناءً على العلامات الزمنية، مع الحفاظ على تسلسل الأحداث بالكامل. يُحاكي هذا النهج سيناريوهات التوصية في العالم الحقيقي بشكل أدق لأنه يمنع أي بيانات مستقبلية من التسرب إلى التدريب ويسمح باختبار النماذج على تفاعلات غير مرئية حقاً، وتأتي زمنياً لاحقاً. يُعدّ هذا التقييم المُدرك للوقت ضرورياً لمعايرة الخوارزميات في ظل قيود واقعية وفهم فعاليتها العملية.

النماذج الأساسية والمقاييس المُضمنة

لدعم معايرة الأداء وتسريع الابتكار، تقدم ياندكس نماذج أنظمة توصية أساسية مُطبقة على مجموعة البيانات، بما في ذلك:

  • MostPop: نموذج قائم على الشعبية يُوصي بأكثر العناصر شعبية.
  • DecayPop: نموذج شعبية يتناقص مع مرور الوقت.
  • ItemKNN: طريقة تصفية تعاونية قائمة على الجوار.
  • iALS: تحليل المصفوفات التربيعية المتناوبة الضمنية.
  • BPR: تصنيف بايزي شخصي، وهي طريقة تصنيف زوجي.
  • SANSA و SASRec: نماذج مُدركة للتسلسل تستفيد من آليات الاهتمام الذاتي.

تتم تقييم هذه النماذج الأساسية باستخدام مقاييس أنظمة التوصية القياسية مثل:

  • NDCG@k (Normalized Discounted Cumulative Gain): يقيس جودة التصنيف مع التركيز على موضع العناصر ذات الصلة.
  • Recall@k: يقيم جزء العناصر ذات الصلة المُسترجعة.
  • Coverage@k: يُشير إلى تنوع التوصيات عبر الكتالوج.

يساعد توفير هذه المعايير الباحثين على قياس أداء الخوارزميات الجديدة بسرعة بالنسبة للطرق المُ確ّدة.

التطبيق الواسع الذي يتجاوز بث الموسيقى

على الرغم من أن مجموعة البيانات مصدرها خدمة بث موسيقى، إلا أن قيمتها تتجاوز هذا المجال بكثير. إن أنواع التفاعل، وديناميكيات سلوك المستخدم، والحجم الكبير تجعل ياmbda معياراً عالمياً لأنظمة التوصية عبر قطاعات مثل التجارة الإلكترونية، ومنصات الفيديو، وشبكات التواصل الاجتماعي. يمكن تعميم الخوارزميات المُعتمدة على هذه المجموعة من البيانات أو تكييفها مع مهام التوصية المختلفة.

الفوائد لأصحاب المصلحة المختلفين

  • الأوساط الأكاديمية: تُمكّن من الاختبار الدقيق للنظريات والخوارزميات الجديدة على نطاق ذي صلة بالصناعة.
  • الشركات الناشئة والشركات الصغيرة والمتوسطة: تُقدم مورداً مُقارناً لما تملكه عمالقة التكنولوجيا، مما يُعادل الفرص ويُسرّع تطوير محركات التوصية المتقدمة.
  • المستخدمون النهائيون: يستفيدون بشكل غير مباشر من خوارزميات التوصية الأكثر ذكاءً التي تُحسّن اكتشاف المحتوى، وتُقلل من وقت البحث، وتزيد من المشاركة.

My Wave: نظام التوصية الشخصي من ياندكس

تستفيد ياندكس ميوزك من نظام توصية خاص يسمى My Wave، والذي يُدمج الشبكات العصبية العميقة والذكاء الاصطناعي لتخصيص اقتراحات الموسيقى. يحلل My Wave آلاف العوامل، بما في ذلك:

  • تسلسلات تفاعل المستخدم وسجلات الاستماع.
  • التفضيلات القابلة للتخصيص مثل الحالة المزاجية واللغة.
  • تحليل الموسيقى في الوقت الفعلي للمخططات الطيفية، والإيقاع، ونبرة الصوت، ونطاقات التردد، والأنواع.

يتكيف هذا النظام ديناميكياً مع الأذواق الفردية من خلال تحديد أوجه التشابه الصوتي والتنبؤ بالتفضيلات، مما يُظهر نوع خط أنابيب التوصية المعقد الذي يستفيد من مجموعات البيانات واسعة النطاق مثل ياmbda.

ضمان الخصوصية والاستخدام الأخلاقي

يُبرز إصدار ياmbda أهمية الخصوصية في أبحاث أنظمة التوصية. تُجهّل ياندكس جميع البيانات باستخدام معرفات رقمية وتُغفل المعلومات الشخصية القابلة للتعريف. لا تحتوي مجموعة البيانات إلا على إشارات التفاعل دون الكشف عن هويات المستخدمين الدقيقة أو سماتهم الحساسة. يُحقق هذا التوازن بين الانفتاح والخصوصية إمكانية إجراء أبحاث قوية مع حماية بيانات المستخدم الفردية، وهو اعتبار بالغ الأهمية للتقدم الأخلاقي لتقنيات الذكاء الاصطناعي.

الوصول والإصدارات

تُقدم ياندكس مجموعة بيانات ياmbda بثلاثة أحجام لتلبية قدرات البحث والحوسبة المختلفة:

  • الإصدار الكامل: ~ 5 مليارات حدث.
  • الإصدار المتوسط: ~ 500 مليون حدث.
  • الإصدار الصغير: ~ 50 مليون حدث.

تتوفر جميع الإصدارات عبر Hugging Face، وهي منصة شهيرة لاستضافة مجموعات البيانات ونماذج التعلم الآلي، مما يُمكّن من التكامل السهل في سير عمل البحث.

الخاتمة

يُمثّل إصدار ياندكس لمجموعة بيانات ياmbda لحظة محورية في أبحاث أنظمة التوصية. من خلال توفير حجم غير مسبوق من بيانات التفاعل المُجهّلة مقترنةً بالتقييم المُدرك للوقت والنماذج الأساسية، يُحدد معياراً جديداً لمعايرة الأداء وتسريع الابتكار. يمكن للباحثين والشركات الناشئة والشركات على حد سواء الآن استكشاف وتطوير أنظمة توصية تعكس بشكل أفضل الاستخدام في العالم الحقيقي وتُقدم تخصيصاً مُحسّناً. مع استمرار تأثير أنظمة التوصية على العديد من التجارب عبر الإنترنت، تلعب مجموعات البيانات مثل ياmbda دوراً أساسياً في دفع حدود ما يُمكن أن تحققه التخصيصات المُدفوعة بالذكاء الاصطناعي. اطلع على مجموعة بيانات ياmbda على Hugging Face.

ملاحظة: شكرًا لفريق ياندكس على القيادة الفكرية. وقد دعم فريق ياندكس ورعى هذا المحتوى/المقال.

المصدر: MarkTechPost