مجموعة بيانات يامبدا: ثورة في أنظمة التوصية
أعلنت شركة Yandex مؤخرًا عن إطلاقها لمجموعة بيانات Yambda، وهي أكبر مجموعة بيانات عامة متاحة في العالم لأبحاث وتطوير أنظمة التوصية. تهدف هذه المجموعة إلى سد الفجوة بين الأبحاث الأكاديمية والتطبيقات الصناعية واسعة النطاق، حيث تقدم ما يقرب من 5 مليارات حدث تفاعل مُجهّل من Yandex Music، وهي إحدى خدمات البث الرئيسية للشركة التي تضم أكثر من 28 مليون مستخدم شهريًا.
أهمية مجموعة بيانات Yambda: معالجة نقص البيانات الحرج في أنظمة التوصية
تشكل أنظمة التوصية ركيزةً أساسيةً للخبرات الشخصية في العديد من الخدمات الرقمية اليوم، بدءًا من التجارة الإلكترونية وشبكات التواصل الاجتماعي وصولاً إلى منصات البث. تعتمد هذه الأنظمة بشكل كبير على كميات هائلة من بيانات السلوك، مثل النقرات والإعجابات والاستماع، لاستنتاج تفضيلات المستخدمين وتقديم محتوى مُصمم خصيصًا لهم. ومع ذلك، فقد تأخرت أنظمة التوصية عن غيرها من مجالات الذكاء الاصطناعي، مثل معالجة اللغات الطبيعية، وذلك بشكل أساسي نظرًا لنقص مجموعات البيانات الكبيرة والمتاحة للجميع.
على عكس نماذج اللغات الكبيرة (LLMs) التي تتعلم من مصادر نصية متاحة للجمهور، تحتاج أنظمة التوصية إلى بيانات سلوكية حساسة – وهي بيانات ذات قيمة تجارية ويصعب إخفاء هوياتها. نتيجة لذلك، حافظت الشركات تقليديًا على هذه البيانات سرية، مما حد من وصول الباحثين إلى مجموعات بيانات ذات نطاق واقعي.
تُعدّ مجموعات البيانات الموجودة، مثل مجموعة بيانات Spotify Million Playlist، وبيانات Netflix Prize، وسجلات نقرات Criteo، إما صغيرة جدًا أو تفتقر إلى التفاصيل الزمنية، أو غير موثقة جيدًا لتطوير نماذج توصية بمستوى إنتاجي. يُعالج إصدار Yandex لـ Yambda هذه التحديات من خلال توفير مجموعة بيانات شاملة وعالية الجودة مع مجموعة غنية من الميزات و ضمانات الحفاظ على الخصوصية.
محتويات مجموعة بيانات Yambda: الحجم، الثراء، والخصوصية
تتكون مجموعة بيانات Yambda من 4.79 مليار تفاعل مستخدم مُجهّل تم جمعها على مدار 10 أشهر. تأتي هذه الأحداث من حوالي مليون مستخدم يتفاعلون مع ما يقرب من 9.4 مليون مقطع موسيقي على Yandex Music. تتضمن مجموعة البيانات:
- تفاعلات المستخدم: كل من الملاحظات الضمنية (الاستماع) والملاحظات الصريحة (الإعجابات، عدم الإعجاب، وإزالة الإعجابات).
- المداخلات الصوتية المُجهّلة: تمثيلات متجهة للمقاطع الموسيقية مُشتقة من الشبكات العصبية التلافيفية، مما يُمكّن النماذج من الاستفادة من تشابه محتوى الصوت.
- علامات التفاعل العضوي: تشير علامة “is_organic” إلى ما إذا كان المستخدمون قد اكتشفوا مقطعًا موسيقيًا بشكل مستقل أم عبر توصيات، مما يُسهّل تحليل السلوك.
- طوابع زمنية دقيقة: يتم وضع طابع زمني لكل حدث للحفاظ على الترتيب الزمني، وهو أمر بالغ الأهمية لنمذجة سلوك المستخدم التسلسلي.
تم إخفاء هويات جميع المستخدمين والمسارات باستخدام معرفات رقمية للامتثال لمعايير الخصوصية، مما يضمن عدم الكشف عن أي معلومات شخصية قابلة للتعريف. يتم توفير مجموعة البيانات بتنسيق Apache Parquet، وهو مُحسّن لأطر عمل معالجة البيانات الضخمة مثل Apache Spark و Hadoop، كما أنه متوافق مع مكتبات التحليل مثل Pandas و Polars. هذا يجعل Yambda في متناول الباحثين والمطورين العاملين في بيئات متنوعة.
طريقة التقييم: الانقسام الزمني العالمي (GTS)
ابتكار رئيسي في مجموعة بيانات Yandex هو اعتماد استراتيجية تقييم الانقسام الزمني العالمي (GTS). في أبحاث أنظمة التوصية النموذجية، تزيل طريقة Leave-One-Out المستخدمة على نطاق واسع التفاعل الأخير لكل مستخدم للاختبار. ومع ذلك، فإن هذا النهج يعطل الاستمرارية الزمنية لتفاعلات المستخدم، مما يخلق ظروف تدريب غير واقعية. من ناحية أخرى، يقسم GTS البيانات بناءً على الطوابع الزمنية، مع الحفاظ على تسلسل الأحداث بالكامل. يُحاكي هذا النهج سيناريوهات التوصية في العالم الحقيقي بشكل أوثق لأنه يمنع تسرب أي بيانات مستقبلية إلى التدريب ويسمح باختبار النماذج على تفاعلات غير مرئية حقًا، وتأتي زمنيًا لاحقًا. هذا التقييم المُدرك للزمن ضروري لمعايرة الخوارزميات ضمن قيود واقعية وفهم فعاليتها العملية.
النماذج الأساسية والمقاييس المُضمنة
لدعم المعايرة وتسريع الابتكار، توفر Yandex نماذج توصية أساسية تم تنفيذها على مجموعة البيانات، بما في ذلك:
- MostPop: نموذج قائم على الشعبية يُوصي بأكثر العناصر شيوعًا.
- DecayPop: نموذج شعبية متحلل زمنيًا.
- ItemKNN: طريقة تصفية تعاونية قائمة على الجوار.
- iALS: تحليل المصفوفة التربيعية المتناوبة الضمنية.
- BPR: تصنيف Bayesian Personalized Ranking، وهي طريقة تصنيف زوجي.
- SANSA و SASRec: نماذج مُدركة للتسلسل تستفيد من آليات الانتباه الذاتي.
تم تقييم هذه النماذج الأساسية باستخدام مقاييس توصية قياسية مثل:
- NDCG@k (Normalized Discounted Cumulative Gain): يقيس جودة التصنيف مع التركيز على موضع العناصر ذات الصلة.
- Recall@k: يقيم جزء العناصر ذات الصلة التي تم استردادها.
- Coverage@k: يشير إلى تنوع التوصيات عبر الكتالوج.
يساعد توفير هذه المعايير الباحثين على قياس أداء الخوارزميات الجديدة بسرعة بالنسبة للطرق المُ確ّدة.
التطبيقات الواسعة خارج بث الموسيقى
في حين أن مجموعة البيانات مصدرها خدمة بث موسيقى، إلا أن قيمتها تتجاوز هذا المجال بكثير. تجعل أنواع التفاعل، وديناميكيات سلوك المستخدم، والحجم الكبير من Yambda معيارًا عالميًا لأنظمة التوصية عبر قطاعات مثل التجارة الإلكترونية ومنصات الفيديو وشبكات التواصل الاجتماعي. يمكن تعميم الخوارزميات التي تم التحقق منها على هذه المجموعة من البيانات أو تكييفها مع مهام توصية متنوعة.
فوائد أصحاب المصلحة المختلفين:
- الأوساط الأكاديمية: تُمكّن من اختبار النظريات والخوارزميات الجديدة بدقة على نطاق ذي صلة بالصناعة.
- الشركات الناشئة والشركات الصغيرة والمتوسطة: تقدم موردًا يُضاهي ما تملكه عمالقة التكنولوجيا، مما يُسوي ساحة المنافسة ويُسرّع تطوير محركات التوصية المتقدمة.
- المستخدمون النهائيون: يستفيدون بشكل غير مباشر من خوارزميات التوصية الأكثر ذكاءً التي تُحسّن اكتشاف المحتوى، وتُقلل وقت البحث، وتزيد المشاركة.
نظام التوصية الشخصي من Yandex: My Wave
تستفيد Yandex Music من نظام توصية خاص يسمى My Wave، والذي يُدمج الشبكات العصبية العميقة والذكاء الاصطناعي لتخصيص اقتراحات الموسيقى. يحلل My Wave آلاف العوامل، بما في ذلك:
- تسلسلات تفاعل المستخدم وسجل الاستماع.
- التفضيلات القابلة للتخصيص مثل الحالة المزاجية واللغة.
- تحليل الموسيقى في الوقت الفعلي للمخططات الطيفية والإيقاع ونبرة الصوت ونطاقات التردد والأنواع.
يتكيف هذا النظام ديناميكيًا مع الأذواق الفردية من خلال تحديد أوجه التشابه الصوتي والتنبؤ بالتفضيلات، مما يُظهر نوع خط أنابيب التوصية المعقد الذي يستفيد من مجموعات البيانات واسعة النطاق مثل Yambda.
ضمان الخصوصية والاستخدام الأخلاقي
يُبرز إصدار Yambda أهمية الخصوصية في أبحاث أنظمة التوصية. تُخفي Yandex جميع البيانات باستخدام معرفات رقمية وتُغفل المعلومات الشخصية القابلة للتعريف. لا تحتوي مجموعة البيانات إلا على إشارات تفاعل دون الكشف عن هويات المستخدمين الدقيقة أو السمات الحساسة. يُمكّن هذا التوازن بين الانفتاح والخصوصية من إجراء أبحاث قوية مع حماية بيانات المستخدمين الفردية، وهو اعتبار بالغ الأهمية للتقدم الأخلاقي لتقنيات الذكاء الاصطناعي.
الوصول والإصدارات
تقدم Yandex مجموعة بيانات Yambda بثلاثة أحجام لتلبية قدرات البحث والحوسبة المختلفة:
- الإصدار الكامل: ~ 5 مليارات حدث.
- الإصدار المتوسط: ~ 500 مليون حدث.
- الإصدار الصغير: ~ 50 مليون حدث.
تتوفر جميع الإصدارات عبر Hugging Face، وهي منصة شهيرة لاستضافة مجموعات البيانات ونماذج التعلم الآلي، مما يُمكّن من التكامل السهل في سير العمل البحثية.
الخاتمة
يُمثّل إصدار Yandex لمجموعة بيانات Yambda لحظة محورية في أبحاث أنظمة التوصية. من خلال توفير نطاق غير مسبوق من بيانات التفاعل المُجهّلة المقترنة بالتقييم المُدرك للزمن والمعايير الأساسية، يضع معيارًا جديدًا لمعايرة وتسريع الابتكار. يمكن للباحثين والشركات الناشئة والشركات على حد سواء الآن استكشاف وتطوير أنظمة توصية تعكس بشكل أفضل الاستخدام في العالم الحقيقي وتُقدم تخصيصًا مُحسّنًا. مع استمرار تأثير أنظمة التوصية على تجارب الإنترنت التي لا تُحصى، تلعب مجموعات البيانات مثل Yambda دورًا أساسيًا في دفع حدود ما يُمكن أن تحققه التخصيص المُدعم بالذكاء الاصطناعي. يمكنكم الاطلاع على مجموعة بيانات Yambda على Hugging Face.
ملاحظة: نشكر فريق Yandex على قيادته الفكرية/ الموارد لهذا المقال. وقد دعم فريق Yandex ورعى هذا المحتوى/ المقال.
اترك تعليقاً